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EREE AEE ， 虽 然 这 台 笔 记 本 电脑 价值 1 万 多 元 ， 让 我 心 
Ra eH 硬盘 里 的 资料 ， 它们 的 价值 可 能 是 电脑 的 几 十 倍 、 上 
百倍 。 这 件 事 让 我 付出 了 惨痛 的 代价 ， 也 让 我 养 成 了 一 个 好 习惯 ， 
资料 随时 备份 在 移动 硬盘 、 办 公 室 电脑 等 多 个 终端 里 。 

第 一 次 接触 电脑 ， 还 是 20 世纪 80 年 代 初 我 在 中 科 院 理论 物理 
所 给 周 光 召 所 长 做 外 事 秘书 时 ， 周 先生 当时 花 了 250 美元 从 美国 带 
来 了 一 台 刚 面市 的 苹果 电脑 ， 让 我 第 一 次 看 到 了 电脑 视窗 ， 第 一 次 
意识 到 电脑 里 的 数据 可 以 看 得 见 、 看 得 懂 ， 而且 还 可 以 用 来 玩 游戏 。 
而 在 此 之 前 的 20 世纪 60 年代， 周 光 召 、 于 敏 、 何 神 麻 等 科学 家 做 
核武 器 的 理论 设计 ,使 用 的 还 是 手 摇 计算 机 。 手 摇 计 算 机 只 能 做 简 
单 的 数学 运算 ， bem, A R B, APRE, RERE, RR 
要 输入 三 角 函 数 和 对 数 ， 都 需要 查 表 ， 使 用 起 来 也 十 分 麻烦 ， 经 常 
需要 正 摇 几 园 ， 反 播 几 园 ， 还 要 用 纸 、 笔 记录 。 

研究 生 毕 业 以 后 ， 我 被 分 配 到 新 华 社 做 记者 ， 恰 好 赶 上 新 华 社 
全 面 采 用 王 安 电 脑 终端 编辑 英文 新 闻 ， 使 英文 新 闻 的 编发 工作 实现 
了 电脑 化 。 在 此 之 前 ， 记 者 要 靠 纸 、 笔 、 打 字 机 、 传 真 机 和 电 传 机 
进行 手工 作业 ， 编 辑 部 门 要 把 编 好 的 稿件 送 到 发 稿 部 门 ， 由 报 务 人 
员 按 稿件 先 打字 作 电 传 孔 条 ， 然 后 再 在 各 条 线路 的 发 送 机 上 发 出 。 
使 用 终端 机 后 ， 编 辑 、 记 者 可 以 在 电脑 上 直接 对 稿件 进行 编辑 修改 。 

我 买 的 第 一 台 个 人 电脑 是 中 关 村 的 组 装机 。 那 台电 脑 的 操作 系 
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统 是 UCDOS，, 使 用 的 是 5.25 寸 的 软盘 ， 容 量 是 360K。 我 的 第 二 台 个 人 电脑 
的 软盘 已 经 更 新 成 3.5 寸 ,容量 也 增加 到 1.44M ,我 的 办 公 室 现在 还 有 上 百 张 3.5 
寸 的 软盘 , 可 惜 现 在 已 经 不 太 容 多 找到 能 够 读 软盘 的 电脑 了 。 光 驱 、 移 动 硬盘 、 
U 盘 打 败 了 软盘 ， 成 为 数据 存储 的 主流 ， 存 储 介 质 的 容量 也 越 来 越 大 ， 几 年 前 
的 UU 盘 一 般 都 是 16M 的 ， 而 如 今 16G 的 U 盘 都 嫌 不 够 用 。 

我 每 次 出 国都 要 输电 子 产 品 商店 ， 看 看 有 没有 容量 更 大 的 移动 硬盘 或 U 
盘 。 我 现在 使 用 的 是 两 块 1T 的 移动 硬盘 ， 分 别 存储 不 同 的 文件 。 其 中 一 块 移 
动 硬盘 里 存储 着 Foxmail 邮件 客户 端 信息 ， 数 据 容量 已 经 达到 20G， 存 储 着 我 
所 有 的 电子 邮件 ， 我 用 Foxmail 对 邮件 信息 进行 了 分 类 ， 它 就 像 我 的 一 个 私人 
图 书馆 一 样 ， 随 时 可 以 在 其 中 方便 地 查找 资料 。 

但 是 , 使 用 移动 硬盘 仍然 不 够 方便 和 安全 ,因为 一 旦 移动 硬盘 丢 了 、 坏 了 ， 
或 者 是 当 你 急用 的 时 候 却 发 现 它 不 在 身边 ， 都 会 带 来 不 便 。 最 好 的 方式 是 通过 
云 储 存 ， 把 资料 备份 到 云端 ， 但 最 大 的 担心 是 怕 不 安全 ， 万 一 云端 的 服务 器 出 
了 问题 ， 或 者 网 络 出 了 问题 ， 造 成 的 损失 是 不 可 估量 的 ， 所 以 我 现在 还 是 靠 自 
已 储存 数据 。 

我 的 办 公 室 里 有 一 面 墙 的 书架 都 是 存放 录音 带 、 录 像 带 、 光 盘 和 各 类 软盘 
的 ， 存 储 着 我 从 教书 以 来 的 所 有 影像 、 课 件 、 资 料 ， 但 是 查找 文件 就 像 大 海 捞 
针 一 样 。 现 在 许多 软件 对 数据 分 类 和 查找 都 支持 得 很 好 ， 如 果 能 在 一 张 移动 硬 
盘 上 集中 存储 这 些 数据 ， 自 然 要 方便 很 多 。 但 移动 硬盘 也 不 安全 ， 既 有 被 盗 的 
风险 ， 也 担心 使 用 中 被 损坏 。 所 以 最 终 的 解决 方案 还 是 要 依靠 云 存 储 ， 所 有 的 
文件 都 存储 在 虚拟 空间 里 ， 随 时 可 以 通过 互联 网 找 出 来 。 

我 对 “网 络 数 据 ” 的 直观 感受 就 是 它 的 增长 速度 像 原 子弹 链 式 反应 一 样 ， 
至 今 仍 在 加 速 膨胀 。 我 从 1995 年 开始 使 用 互联 网 ， 一 直到 2010 年 的 15 年 时 
间 里 ， 积 累 的 数据 资料 也 就 只 有 书架 上 的 各 类 光盘 、 软 盘 、 磁 带 ， 而 从 2010 
年 到 现在 这 2 年 的 时 间 , 就 积累 了 2T 的 数据 , 可 能 与 前 15 年 数据 的 容量 相当 。 

在 大 数据 时 代 ， 人 们 对 数据 的 分 类 检索 和 储存 智能 化 要 求 越 来 越 高 ， 否 则 
查找 有 用 的 数据 就 像 沙里 淘金 一 样 ， 大 数据 对 人 们 来 说 意味 着 宝藏 ， 同 时 也 不 
可 避免 地 带 来 了 数据 垃圾 。 作 为 一 名 研究 人 员 ， 我 从 事 研究 工作 的 基础 是 文献 
检索 和 综述 ， 离 不 开 数 据 的 收集 、 分 类 、 综 述 和 摘要 ， 这 些 工 作 在 过 去 都 是 依 
靠 纸 质 的 报刊 、 图 书 文献 ， 工 作 的 方法 是 “剪报 "。 我 从 小 学 三 年 级 开始 剪报 ， 
一 直到 读 研究 生还 保持 着 这 个 习惯 。 后 来 到 新 华 社 当 记 者 ， 查 找 文献 还 是 依靠 
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剪报 。 再 后 来 出 现 了 电脑 ， 这 的 确 给 文献 的 收集 和 使 用 带 来 了 方便 ， 但 由 于 太 
相信 和 电脑， 一旦 系统 崩溃 或 硬盘 坏 了 ， 数 据 就 没 了 。 

美国 皮 尤 中 心 于 2012 年 7 月 20 日 发 布 了 一 项 关于 大 数据 的 民意 调查 报告 。 
有 53% 的 人 乐观 地 认为 大 数据 的 应 用 能 够 促进 社会 、 政 治 和 经 济 的 智能 化 发 
展 。 但 同样 值得 注意 的 是 ，39% 的 人 对 大 数据 的 前 景 表现 出 极 大 的 忧虑 ， 认 
为 大 数据 会 造成 人 类 对 自身 预测 能 力 的 盲目 自信 ,进而 会 导致 很 多 错误 的 决定 ， 
甚至 有 人 认为 大 数据 的 崛起 对 于 整个 社会 而 言 ， 无 疑 是 一 个 蛋 梦 。 人 类 最 终 不 
是 被 核武 器 毁灭 ， 而 是 被 “堆积 如 山 、 自 气 一 天 ”的 互联 网 信息 埋葬 。 

在 我 看 来 ， 大 数据 时 代 人 类 面临 的 更 大 问题 是 ， 各 类 互联 网 终端 的 普及 ， 
特别 是 社交 媒体 的 出 现 ， 使 得 人 人 可 以 成 为 文章 的 作者 ， 人 人 都 是 学 者 ， 人 人 
都 是 杂文 家 ， 人 人 都 是 摄影 家 ， 人 人 都 是 制 片 人 ， 人 人 都 是 演员 。 在 纸 媒 时 代 ， 
作者 的 门槛 很 高 ， 那 个 时 候 在 书店 里 随便 买 一 本 书 都 有 价值 ， 今 天 由 于 信息 的 
爆炸 式 增长 ， 人 们 很 难 区 分 什么 是 有 价值 的 信息 ， 什 么 是 垃圾 信息 ， 灾 难 来 自 
于 把 这 两 类 信息 都 放 在 一 个 数据 库 里 ， 有 价值 的 信息 被 埋没 ,信息 的 泛滥 带 来 
人 类 整体 的 平庸 化 和 低俗 化 。 人 生 是 短暂 的 ， 如 果 人 生 要 在 荒诞 的 信息 中 自 娱 
自 乐 ， 一 辈子 就 那样 过 去 了 。 问 题 是 人 类 意识 不 到 自己 是 处 在 高 雅文 化 传播 当 
中 还 是 低俗 平庸 文化 传播 当中 。 人 类 将 来 也 许 不 是 被 核武 器 毁灭 ， 而 是 被 “大 
数据 ”所 毁灭 。 因 此 ， 我 们 要 研究 和 掌握 其 中 的 规律 。 媒 体 教育 工作 者 要 面向 
公众 开展 大 数据 的 媒介 素养 教育 ， 研 究 人 员 要 开发 出 最 好 的 技术 ， 使 人 们 能 够 
利用 适当 的 技术 方便 地 获取 更 多 有 价值 、 有 深度 的 信息 。 

由 郭 晓 科 博士 主编 的 《大 数据 》)， 虽 然 篇 幅 不 长 ， 但 本 书 编者 们 通过 艰苦 
的 文献 研究 ， 精 心 编辑 了 最 新 的 、 有 重要 价值 的 国际 研究 报告 、 重 要 数据 、 行 
业 最 新 进展 等 文献 ， 从 数据 大 爆炸 、 大 数据 应 用 、 大 数据 挖掘 、 大 数据 前 瞻 、 
大 数据 安全 等 不 同 的 角度 为 读者 展示 了 一 幅 浩瀚 的 大 数据 景观 。 面 对 油 涌 来 袭 
的 大 数据 无论 对 于 专业 人 士 还 是 普通 公众 ， 这 本 书 无 疑 具 有 重要 价值 。 


李 希 光 
清华 大 学 国际 传播 研究 中 心 主任 
联合 国教 科 文 组 织 媒介 素养 教 席 主任 
2012 年 8 月 于 清华 园 


Oi, “Mie” PEA a 还 是 一 个 相当 专业 的 词 
汇 。 a) B” BAANT NSS IRMA, AN 
在 日 常生 活 和 工 收发 邮件 和 短信 、 拍 照 、 录 像 、 撰 写 文稿 、 计 
算 机 绘图 经 ， 每 天 都 在 源源 不 断 地 产生 态 量 的 数据 。 全 人 类 
一 年 产生 的 数据 量 以 及 它 的 增长 速度 都 大 得 惊人 : 全 球 著 名 咨询 机 
构 IDC ( 国际 文献 资料 中 心 ) 在 2006 年 估计 全 世界 产生 数据 量 为 
0.18ZB(1ZB=100 万 PB)， 而 截至 2011 年 这 个 数字 已 经 提升 了 一 个 
数量 级 ， 达 到 1.8ZB， 相 当 于 全 世界 每 个 人 一 块 用 100 多 GB 的 硬 
盘存 储 的 数据 。 这 种 增长 仍 在 加 速 ， 预 计 2015 年 将 达到 近 8ZB。 

2011 年 6 月 ， 麦 肯 锡 全 球 研究 所 (MGI) 发 布 了 《大 数据 : 创 
新 、 竞 争 和 生产 力 的 下 一 个 前 沿 》(Big data: The next frontier for 
innovation, competition, and productivity )。 在 这 份 报告 中 ,“ 大 数据 ” 
的 概念 得 到 了 清晰 阐释 ， 麦肯锡 在 研究 报告 中 指出 ， 数 据 已 经 渗透 
到 每 一 个 行业 和 业务 职能 领域 ， 逐 渐 成 为 重要 的 生产 因素 ; 而 人 们 
对 于 海量 数据 的 运用 将 预示 着 新 一 波 生产 率 增 长 和 消费 者 盈余 浪潮 
的 到 来 。 

2012 年 1 月 在 瑞士 举行 的 达 沃 斯 世界 经 济 论坛 发 布 了 一 份 名 为 
《大 数据 ， 大 影响 》( Big Data, Big Impact) 的 报告 ， 再 次 引起 全 球 关 
注 与 热 议 。 这 份 报 告 认为 ， 大 数据 就 像 货 币 和 黄金 一 样 ， 是 一 种 新 
型 的 经 济 资产 。 多 家 投资 机 构 甚 至 据 此 判断 ,“ 大 数据 ”将 会 成 为 贯 
穿 2012 年 的 一 条 全 新 投资 主线 。 

哈佛 大 学 定量 社会 研究 所 主任 加 里 。 金 ( Gary King) 在 接受 《 纽 
约 时 报 》 记 者 史 蒂 夫 采访 时 说 :“ 这 是 一 场 革命 ， 我 们 现在 做 的 只 
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冰山 一 角 ， 但 是 由 于 庞大 的 数据 新 来 源 而 带 来 的 定量 化 方法 ， 将 横扫 学 界 、 商 
界 和 政界 ， 所 有 领域 都 将 被 触及 。” 

2012 年 3 月 29 日 ,美国 联邦 政府 宣布 了 《大 数据 研究 和 发 展 倡议 》( Big 
Data Research and Development Initiative )， 斥 资 2 亿美 元 投入 大 数据 研究 领域 ， 
以 加 强 政府 各 个 部 门 、 研 究 机 构 和 其 他 组 织 从 大 量 复杂 的 数据 中 提取 、 分 析 重 
要 信息 的 能 力 。 这 一 倡议 涉及 美国 联邦 政府 的 六 个 部 门 ， 分 别 是 美国 国家 科学 
基金 、 美 国 国家 卫生 研究 院 、 美 国 能 源 部 、 美 国 国防 部 、 美 国 国防 部 高 级 研究 
计划 局 和 美国 地 质 勘探 局 。 这 些 部 门将 大 力 推动 和 改善 与 大 数据 相关 的 收集 、 
组 织 和 分 析 工具 及 技术 的 研发 和 使 用 ， 力 图 在 科学 发 现 、 环 境 保 护 和 生物 医药 
研究 、 教 育 、 国 家 安全 及 战争 策略 等 领域 利用 大 数据 能 力 取得 突破 。 

中 国 已 经 成 为 世界 第 二 大 经 济 体 ， 但 不 容 忽 视 的 是 高 增长 的 代价 十 分 高 
昂 ， 从 总 体 上 来 看 ， 中 国 仍 处 于 全 球 经 济 食物 链 的 底 端 ， 用 高 能 耗 、 高 污染 、 
廉价 劳动 力 维系 经 济 增长 的 模式 难以 为 继 ， 中 国 在 蒸汽 机 革命 和 电气 化 革命 中 
都 落后 于 世界 ， 但 在 “大 数据 时 代 ” 不 能 再 落后 。 我 们 拥有 前 所 未 有 的 历史 机 
遇 : 中 国 不 仅 拥 有 世界 上 最 多 的 人 口 ， 到 2005 年 底 ， 中 国 的 高 等 学 校 有 2300 余 
所 , 在 学 大 学 生 总 数 已 超过 2300 FA, 高 等 教育 总 体 规模 已 位 居 世 界 第 一 位 。o 
中 国 的 大 学 培养 了 大 量 的 IT、 数 据 统计 、 社 会 管理 等 专业 人 才 ， 为 中 国 的 大 
数据 战略 进行 了 很 好 的 人 才 储 备 。 能 否 在 “大 数据 ”时 代 抓 住 历史 机 遇 ， 成 为 
全 球 信息 革命 的 主角 ， 是 实现 中 国 经 济 结构 转型 和 中 华 民族 伟大 复兴 的 重要 
因素 。 

这 本 书 旨 在 为 中 国政 界 、 产 业界 、 教 育 界 以 及 社会 各 界 人 士 打开 一 扇 了 解 
“大 数据 ”的 窗户 ， 通 过 对 麦肯锡 全 球 研究 所 、 国 际 文献 资料 中 心 、 皮 尤 研 究 
中 心 等 全 球 著名 咨询 机 构 最 新 发 布 的 有 关 大 数据 的 报告 进行 编译 ， 深入浅出 地 
介绍 了 什么 是 大 数据 、 大 数据 的 价值 、 大 数据 的 应 用 、 大 数据 的 挖 握 、 大 数据 
的 未 来 、 大 数据 的 安全 等 内 容 。 在 编译 的 过 程 中 ,清华 大 学 国际 传播 研究 中 心 
的 助理 研究 员 刘 娟 、 张 小 娅 、 汪 震 、 刘 沙沙 、 周 燕 各 自负 责 一 章 ， 为 了 尽快 把 
国际 最 新 、 最 权威 动态 成 果 介 绍 给 国内 读者 ， 她 们 付出 了 巨大 的 努力 ， 在 此 表 
TAH 

郭 晓 科 
2012 年 7 月 于 清华 园 


D 上 述 这 段 话 来 自 教育 部 前 部 长 周济 于 2006 年 7 月 13 日 在 第 三 届 中 外 校长 论坛 的 讲话 。 来 源 : 
http://news3 .xinhuanet.com/newscenter/2006-07/13/content_4829159.htm., 
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2012 年 1 月 在 瑞 袁 举行 的 达 沃 斯 世界 经 济 论坛 上 ;多 一 份 名 为 《大 数据 ， 
大 影响 》( Big Data, Big Impac 份 .的 报告 引起 热 议 。 这 份 报告 认为 ， 大 数据 就 像 
货币 和 黄金 一 样 ， 是 一 种 新 型 的 经 济 资 产 。 多 家 投资 机 构 甚至 据 此 判断 ,“ 大 
数据 ”将 会 成 为 一 条 全 新 投资 主线 。 


Wt) 大 数据 的 潜力 有 多 大 午 | | | 


2012 年 2 H ,科学 记者 史 蒂 夫 * 洛 尔 (Steve Lohr )® 在 《纽约 时 报 》 扎 文 写 
道 : 科学 、 体 育 、 广 告 、 公 共 健 康 等 各 个 不 同 领域 ， 都 越 来 越 趋向 基于 数据 的 
发 现 和 决策 。 

“这 是 一 场 革 命 ， 我 们 现在 做 的 只 是 冰山 一 角 ， 但 是 由 于 庞大 的 数据 新 来 
源 而 带 来 的 定量 化 方法 ,将 横扫 学 界 、 商 界 和 政界 ， 所 有 领域 都 将 被 触及 。” 
哈佛 大 学 定量 社会 研究 所 主任 加 里 “人 金 (Gary King ) 在 接受 《纽约 时 报 》 记 
者 史 带 夫 采 访 时 说 。 

麻 省 理工 大 学 管理 学 院 的 经 济 学 家 埃 里 克 * 布 吕 诺尔 夫 松 (Erik 
Brynjolfsson ) 接受 采访 时 说 ,要 充分 理解 大 数据 的 潜在 影响 ,必须 通过 显微镜 
来 观察 。 四 个 世纪 前 发 明 的 显微镜 使 人 们 前 所 未 有 地 在 细胞 层面 观察 和 测量 事 
物 。 这 是 度量 方面 革命 性 的 举措 。 数 据 测量 就 是 现代 人 的 显微镜 。 例 如 ， 谷 歌 
(Google ) 的 搜索 、 脸 谱 (Facebook ) 的 帖子 和 推 特 ( Twitter) 的 信息 ,使 得 细 


® Steve Lohr《 纽 约 时 报 》 记 者 , 专长 科技 、 商 业 和 经 济 报道 。1990 年 前 曾 任 《 纽 约 时 报 》 驻 外 记者 、 
编辑 。 著 有 《创造 软件 革命 的 程序 员 们 》( 2001 ) 一 书 。 
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节 化 、 即 时 化 的 测量 行为 和 情绪 成 为 了 可 能 。 

布 吕 诺尔 夫 松 说 ， 在 商业 和 经 济 等 其 他 领域 ,决策 将 越 来 越 依赖 于 数据 
和 分 析 ， 而 非 经验 和 直觉 。 

有 很 多 事件 可 以 说 明 以 数据 为 先 的 思考 方式 所 带 来 的 好 处 。 最 著名 的 还 
是 2003 年 迈克 尔 ， 刘易斯 ( Michael Lewis ) 所 写 的 著作 《点 球 成 金 》( Money 
Dall )， 讲 述 了 低 预 算 的 奥克兰 运动 家 队 如 何 通过 整理 后 的 数据 和 星 涩 的 棒球 
统计 资料 来 发 现 被 低估 的 运动 员 。 繁 重 的 数据 分 析 不 仅 在 棒球 领域 成 为 一 项 
标准 ， 而 且 也 被 应 用 于 其 他 运动 ， 如 英国 足球 远 在 去 年 由 布 拉 德 .皮特 主演 的 
电影 版 《点 球 成 金 》 之 前 ， 就 已 经 使 用 了 数据 分 析 。 

沃尔玛 、 科 尔 之 类 的 零售 商 也 通过 分 析 销 售 情况 、 定 价 ， 以 及 经 济 、 人 
口 统计 、 天 气 等 数据 ， 决 定 不 同 店铺 的 产品 类 别 及 降价 促销 的 时 机 。 

全 球 国际 快递 ( UPS ) 等 运输 公司 通过 采集 卡车 运输 次 数 和 路 线 来 调整 运 
输 的 路 线 。 

Match.com 等 在 线 相 亲 服 务 网 站 ， 经 常 查看 在 线 用 户 的 个 人 情况 、 反 应 情 
况 和 沟通 情况 ， 以 提高 男女 约会 安排 的 匹配 率 。 

美国 的 警察 部 门 ， 以 纽约 为 首 ， 使 用 了 计算 机 化 的 人 像 绘 图 ， 并 通过 分 
析 逮 捕 记 录 、 发 工资 日 、 体 育 赛 事 、 降 十 和 节日 等 变量 来 试 网 预测 可 能 发 生 
犯罪 的 “热点 区 域 "， 从 而 可 以 提前 在 这 些 地 区 部 署 警力 。 

布 吕 诺 尔 夫 松 和 其 他 两 名 同事 2011 年 发 表 的 研究 表明 ， 由 数据 引导 的 管 
理 方式 正在 美国 企业 界 蔓延 ,而 且 开 始 出 现 回报 。 他 们 研究 了 179 家 大 型 企业 ， 
发 现 那些 正在 使 用 “基于 数据 的 决策 方式 ”的 企业 所 获得 的 利润 比 其 他 企业 
高 出 5 至 6 个 百分点 。 

大 数据 的 预测 能 力 正在 被 发 据 ， 并 在 公共 健康 、 经 济 发 展 和 预测 等 领域 
显示 出 了 成 功 的 希望 。 人 研究 人 员 发 现 ， 就 在 某 一 地 区 医院 的 急诊 室 里 流感 病 
人 增加 的 约 两 周 前 ， 谷 歌 搜索 里 对 “流感 症状 ”和 “流感 治疗 ”的 搜索 请 求 
出 现 了 一 个 小 高 峰 (急诊 室 的 报告 通常 比 实际 接 诊 情况 晚 两 周 左右 )。 

据 国 际 数据 资讯 公司 (Global Pulse ) 估 测 ， 数 据 数量 一 直 在 增加 ， 每 年 
增长 50%。 这 个 速度 不 仅 是 指数 据 流 的 增长 ， 而 且 还 包括 全 新 的 数据 种 类 的 
增多 。 如 今 全 球 有 数 不 清 的 数据 感应 器 ， 应 用 于 工业 设备 、 汽 车 、 电 子 量 表 、 
集装箱 等 。 它 们 可 以 测量 并 传递 地 点 、 移 动 、 振 动 、 温 度 、 湿 度 ， 甚 至 空气 
中 的 化 学 变化 。 将 这 些 传递 沟通 的 感应 器 与 计算 机 智能 连接 起 来 ， 你 就 能 看 
到 物 联 网 和 工业 互联 网 的 崛起 。 

如 果 说 数据 是 新 型 经 济 资产 ， 那 么 赋予 数据 生产 力 的 则 是 互联 网 。 

2011 年 月 ， 全 球 知 名 咨询 公司 麦肯锡 (McKinsey & Company ) 的 研究 
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部 门 麦肯锡 全 球 研究 所 ( McKinsey Global Institute ) 在 对 13 个 国家 (法国 美国、 
英国 、 和 德国、 日本、 意大利、 加拿大、 俄罗斯、 瑞典、 韩国 、 中 国 、 巴 西 、 印 
E) 调研 后 发 布 了 题 为 《互联 网 的 价值 :网 络 对 经 济 增长 、 就 业 及 繁荣 的 影响 》 
(Internet matters: the net’s sweeping impact on growth, jobs, and prosperity) 的 
调查 报告 。 报 告 从 7 个 方面 论述 了 互联 网 对 经 济 增长 的 贡献 (Matthieu et al., 
2011 )。 

(1) 互联 网 体 量 巨 大 ， 发 展 迅 猛 。 全 球 网 民 数量 已 达 20 亿 ， 并 仍 在 以 每 
年 2000 万 的 速度 增长 。 互 联网 经 济 平均 已 占 13 个 国家 GDP 的 3.4%， 超 过 农 
业 和 人 能源， 成 为 经 济 的 巨大 推动 力 。 

(2) 各 国 互联 网 经 济 发 展 水 平 差异 大 ， 在 瑞典 和 英国 这 样 的 发 达 国 家 ， 互 
联网 经 济 占 GDP 的 比重 是 6% ,而 在 13 个 国家 中 有 9 个 ,这 一 数字 仍 在 4% 以 下 。 
全 球 互联 网 经 济 的 发 展 潜力 不 容 小 裔 。 

(3 ) 互联 网 经 济 对 GDP 贡献 巨大 。 报 告 中 称 ， 从 1995 年 到 2009 年 的 15 
年 间 ， 数 据 覆 盖 的 13 个 国家 互联 网 经 济 占 GDP 增长 的 7%， 并 且 影 响 在 持续 
扩大 ; 在 互联 网 产业 发 达 的 国家 ( 瑞典、 德国 、 英 国 、 法 国 、 美 国 、 韩 国 、 加 
拿 大 、 意 大 利 、 日 本 )，15 年 间 互联 网 对 GDP 增长 的 贡献 率 达 10%，15 年 间 
的 最 后 5 年 (2005—2009 年 )， 这 一 数字 翻 了 一 番 ， 达 21% ; 即使 在 互联 网 产 
业 发 展 中 国家 ( 中国 、 印 度 、 巴 西 、 俄 罗斯 )， 互 联网 经 济 对 GDP 增长 的 贡献 
也 达到 了 3% ( 见 图 1-1 )。 

(4) 互联 网 产业 的 发 达 程 度 与 提升 生活 质量 关系 紧密 。 相 关 研 究 显 示 ， 过 
去 的 15 年 中 ， 互 联网 发 展 给 被 调查 的 13 个 国家 所 带 来 的 人 均 GDP 增长 约 为 
500 美金 ， 相 当 于 19 世纪 工业 革命 历经 50 年 取得 的 成 绩 。 

(5) 相 较 于 传统 行业 ， 互 联网 更 能 催生 就 业 机 会 。 法 国 的 一 项 研究 显示 ， 
过 去 的 15 年 ， 互 联网 每 摧毁 1 个 就 业 岗位 ， 便 新 创造 2.4 个 就 业 岗位 。 麦 肯 
锡 全 球 调查 数据 支持 了 这 一 论断 ， 并 把 这 一 数字 更 新 为 2.6 个 。 

(6) 互联 网 促使 经 济 发 展现 代 化 。 互 联网 的 使 用 为 中 小 企业 提升 了 10% 
的 生产 力 。 倚 力 于 互联 网 技术 的 中 小 企业 ， 增 长 速度 和 产品 出 口 量 都 是 同类 企 
业 的 2 倍 。 

(7 后 联 网 创造 令 人 惊异 的 消费 者 剩余 ?。 月 均 每 用 户 的 消费 者 剩余 从 德国 
的 13 欧元 到 英国 的 20 欧元 ( 见 图 1-2 )。 仅 2009 年 一 年 ， 法 国 创造 的 消费 者 
剩余 为 70 亿 欧 元 ， 美国 为 460 亿 欧 元 。 


D 消费 者 剩余 (consumer surplus )， 经 济 学 概念 ， 指 消费 者 为 获得 一 种 商品 所 愿意 支付 的 价格 与 他 实 
际 支付 的 价格 之 间 的 差额 。 消 费 者 网 上 消费 所 产生 的 剩余 除了 价格 差额 之 外 ， 还 要 减 去 网 络 交 易 成 
本 ,以 及 因 广 告 等 因素 可 能 产生 的 任何 形式 的 污染 成 本 。 
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图 1-1 互联 网 对 13 个 国家 GDP 增 长 的 贡献 ” 


图 1-2 各国 互联 网 用 户 产 生 的 消费 者 剩余 价值 


翻译 自 : 麦肯锡 全 球 研究 所 报告 《互联 网 的 价值 : 长 、 就 业 及 繁荣 的 影响 》 
© 资料 翻译 自 : 麦肯锡 全 球 研究 所 报告 《互联 网 的 价值 : 网 络 对 经 济 增长 、 就 业 及 繁荣 的 影响 》 
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在 同一 份 报告 中 ,麦肯锡 全 球 研究 所 指出 使 用 互联 网 或 物 联网 收集 市 场 和 
消费 者 信息 的 公司 ， 很 快 会 发 现 它 们 的 数据 库 已 被 浩瀚 的 信息 充 塞 。 传 统 的 数 
据 处 理工 具 已 无 法 实现 数据 收集 、 人 储存、 检索、 共享、 分 析 和 视觉 化 的 功能 。 
倘若 不 加 整理 ,互联 网 终 有 一 天 会 成 为 克利 夫 " 斯 托 尔 ( Cliff Stoll P MEHL HY “FE 
满 垃圾 信息 的 荒野 ” “大 数据 ”的 意义 正在 于 寻找 管理 海量 数据 的 科学 路 
径 。 报 告 指出 长 于 “大 数据 时 代 ” 的 人 士 将 迎 来 各 种 各 样 的 机 遇 。《 纽 约 时 报 》 
的 分 析 文 章 认 为 美国 至 少 还 需要 14 万 至 19 万 具备 “深厚 分 析 ” 专 业 技 能 的 人 
才 ， 以 及 150 万 熟悉 数据 的 经 理 级 人 才 (Steve, 2012 )。 麦 肯 锡 预计 下 一 个 10 
年 美国 健康 医疗 业 的 年 均 增长 约 1%， 亦 即 超过 3000 亿美 元 的 潜在 商业 价值 ; 
欧洲 发 达 国 家 的 公共 事业 年 均 增长 约 为 0.5%， 也 就 是 2.55 千 亿 欧元 的 市 场 。 

在 这 份 预测 大 数据 带 来 大 市 场 的 报告 发 布 一 个 月 之 后 ，2011 年 6 月 ， 麦 
肯 锡 全 球 研 究 所 又 密集 地 发 布 了 另 一 份 报告 :《 大 数据 : 创新 、 竞 争 和 生产 
力 的 下 一 个 前 沿 》(Big data: The next frontier for innovation, competition, and 


productivity )， 在 这 份 报告 中 ,“ 大 数据 ”概念 得 到 了 清晰 闻 释 。 


M2) 什么 是 大 数据 站 | | | 


“大 数据 ”一 词 由 英文 “Big Data” 翻 译 而 来 ， 过 去 常 说 的 “信息 爆炸 ”、 
“海量 数据 ”等 已 经 不 足以 描述 这 个 新 事物 。 麦 肯 锡 全 球 研 究 所 报告 《大 数据 : 
创新 、 竞 争 和 生产 力 的 下 一 个 前 沿 》 对 “大 数据 ”定义 如 下 (James, 2011 ): 

大 数据 是 指 大 小 超出 了 传统 数据 库 软 件 工 具 的 抓 取 、 存 储 、 管 理 和 分 析 
能 力 的 数据 群 。 这 个 定义 有 意 地 带 有 主观 性 ， 对 于 “究竟 多 大 才 算 是 大 数据 ”， 
其 标准 是 可 以 调整 的 ， 即 : 我 们 不 以 超过 多 少 TB ( 1000GB ) 为 大 数据 的 标准 。 
我 们 假设 随 着 时 间 的 推移 和 技术 的 进步 ， 大 数据 的 “ 量 ” 仍 会 增加 。 还 应 注意 
到 ， 该 定义 可 以 因 部 门 的 不 同 而 有 所 差异 ， 这 取决 于 什么 类 型 的 软件 工具 是 通 
用 的 ， 以 及 某 个 特定 行业 的 数据 集 通常 的 大 小 。 因 此 ， 今 天 众多 行业 的 大 数据 
范围 可 以 从 几 十 TB 到 数 千 TB。 

作为 特 指 的 大 数据 ， 按 EMC” 的 界定 ， 其 中 的 “大 ”是 指 大 型 数据 集 ， 一 
般 在 10TB 规模 左右 ; 多 用 户 把 多 个 数据 集 放 在 一 起 ， 形 成 PB 级 的 数据 量 ; 


D Cliff Stoll, 美国 天 文学 家 、 人 作家。 亚利桑那 大 学 行星 科学 博士 。 著 有 《杜鹃 蛋 》( The Cuckoo's 
Eeg，1989 ),《 硅 谷 蛇 油 》( Silicon Snake Oil - Second thoughts on the information highway,1995 ),《 高 
科技 异端 者 》( High-Tech Heretic: Reflections of a Computer Contrarian, 2000 ) 。 

@ EMC 公司 ，1979 年 成 立 于 美国 马萨诸塞 州 霍 普 金 市 ，1989 年 开始 进入 企业 数据 储存 市 场 。 提 供 信 
息 存 储 及 管理 产品 、 服 务 和 解决 方案 。 截 至 2011 年 ， EMC 在 中 国 的 北京 、 上 海 、 广 州 等 地 设立 了 
16 家 分 公司 。 
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同时 这 些 数 据 来 自 多 种 数据 源 ， 以 实时 、 和 迭代 的 方式 来 实现 。 大 数据 通常 与 
Hadoop 、NoSQL 、 数 据 分 析 与 挖掘 、 数 据 仓 库 、 商 业 智能 以 及 开源 云 计算 架 
构 等 诸多 热点 话题 联系 在 一 起 。 

IBM 负责 软件 和 硬件 两 大 集团 的 
高 级 副 总裁 Steve Mills 在 IBM 2011 
IOD 大 会 上 说 :“ 分 析 不 再 是 一 个 工具 ， 
而 是 一 项 必要 的 能 力 ， 能 让 业务 流程 智 
慧 运转 的 能 力 。 企 业 必 须 将 对 信息 的 洞 
察 力 转化 为 行动 ， 不 是 为 了 获得 竞争 优 
势 ， 而 是 因为 它 已 经 变 成 生存 的 根本 。” 
( 见 图 1-3 ) 

IBM 公司 把 大 数据 概括 成 了 三 个 
V, 即 大 量化 ( Volume )、 多 样 化 ( Variety ) 
和 快速 化 (Velocity )， 并 向 客户 推出 了 
“大 数据 解决 方案 ”服务 。IBM 公司 所 
概括 的 这 三 个 大 数据 的 特点 也 反映 了 大 ”图 1-3 IBM 高 级 副 总 裁 Steve Mills 在 IOD 
数据 所 潜藏 的 价值 (Value )， 或 许可 以 大 会 上 详 述 IBM 的 大 数据 策略 
认为 ,这 四 个 V 就 是 大 数据 的 基本 特征 

“大 数据 ”的 首要 特征 是 数据 量 大 。 基 于 电脑 的 数据 储存 和 运算 是 以 字 节 
(byte) 为 单位 的 ，1KB (Kilobyte ) =1024B， 又 称 千 字 节 ; 更 高 级 的 数量 单位 
分 别 是 1MB ( Megabyte, 兆 字 节 )、1GB ( Gigabyte, 吉 字 节 ), 1TB ( Trillionbyte， 
KEW), IPB ( Petabyte, 拍 字 节 )、1EB ( Exabyte， 艾 字 节 )、1ZB ( Zettabyte, 
泽 它 字 节 ) 和 1YB ( Yottabyte， 芜 它 字 节 )， 每 个 单位 之 间 的 运算 关系 是 乘 以 
1024。 截 至 2009 年 ， 美 国 几 乎 所 有 部 门 中 每 一 个 雇员 数量 在 1000 人 以 上 的 
企业 所 存储 的 数据 平均 值 至 少 为 200TB ， 是 美国 零售 商 沃尔玛 1999 年 的 数据 
仓库 的 两 倍 。 很 多 经 济 部 门 中 ， 每 个 企业 平均 存储 数据 超过 1PB。 欧 洲 的 组 织 
2010 年 存储 容量 总 计 接 近 11EB， 大 约 为 整个 美国 存储 容量 ( 16EB 以 上 ) 的 
70%。 全 球 企业 2010 年 在 硬盘 上 存储 了 超过 7EB 的 新 数据 ， 消 费 者 在 PC 和 
笔记 本 电脑 等 设备 上 存储 了 超过 6EB 新 数据 ， 而 1EB 数据 就 相当 于 美国 国会 
图 书馆 中 存储 数据 的 4000 多 倍 (James，2011 )。 数 据 容 量 增长 的 速度 大 大 超 
过 了 硬件 技术 的 发 展 速度 ， 以 至 于 引发 了 数据 存储 和 处 理 的 危机 。 大 量 的 数据 
会 被 处 理 掉 ， 比 如 医疗 卫生 提供 商会 处 理 掉 他 们 所 产生 的 90% 的 数据 (手术 


O (IBM 大 数据 战略 》 载 《 中 国 计 算 机 报 》 2011-11-07. 


第 1 章 数据 大 爆炸 


过 程 中 产生 的 几乎 所 有 实时 视频 图 像 )。 

然而 ,大 数据 不 只 是 大 。 海 量 数据 引发 的 危机 并 不 单纯 是 数据 量 的 爆炸 性 
增长 ， 还 牵涉 到 数据 类 型 的 改变 ， 也 即 多 样 化 (Variety )。 原 来 的 数据 都 可 以 
用 二 维 表 结 构 存 储 在 数据 库 中 ， 如 常用 的 Excel 软件 所 处 理 的 数据 ， 我 们 称 之 
为 结构 化 数据 。 但 是 现在 ， 更 多 互联 网 多 媒体 应 用 的 出 现 ， 使 诸如 图 片 、 声 音 
和 视频 等 非 结构 化 数据 占 到 了 很 大 比重 。 有 统计 显示 ， 全 世界 结构 化 数据 增长 
率 大 概 是 32%， 而 非 结构 化 数据 增长 率 则 是 63%， 预 计 至 2012 年 ， 非 结构 化 
数据 占有 比例 将 达到 互联 网 整个 数据 量 的 75% 以 上 。 用 于 产生 智慧 的 大 数据 ， 
往往 是 这 些 非 结构 化 数据 ( 曹磊 等 ，2011 )。 

Informatica2 中 国 区 首席 产品 顾问 但 彬 认为 : “大 数据 ”包含 了 “海量 数据 ” 
的 含义 ， 而 且 在 内 容 上 超越 了 海量 数据 ， 简 而 言 之 ,“ 大 数据 ”是 海量 数据 + 
复杂 类 型 的 数据 。 但 彬 进一步 指出 : 大 数据 包括 交易 和 交互 数据 集 在 内 的 所 有 
数据 集 ， 其 规模 或 复杂 程度 超出 了 常用 技术 按照 合理 的 成 本 和 时 限 捕捉 、 管 理 
及 处 理 这 些 数据 集 的 能 力 。 

简单 来 说 ， 大 数据 由 三 项 主要 技术 趋势 汇聚 组 成 。 一 是 海量 交易 数据 : 在 
从 ERP 应 用 程序 到 数据 仓库 应 用 程序 的 在 线 交易 处 理 (OLTP ) 与 分 析 系 统 中 ， 
传统 的 关系 数据 以 及 非 结构 化 和 半 结 构 化 信息 仍 在 继续 增长 。 随 着 企业 将 更 多 
的 数据 和 业务 流程 移 向 公共 和 私有 云 ， 这 一 局 面 变 得 更 加 复杂 。 二 是 海量 交互 
数据 : 这 一 新 生 力 量 由 源 于 Facebook, Twitter, LinkedIn 及 其 他 来 源 的 社交 媒 
体 数据 构成 。 它 包括 了 呼叫 详细 记录 ( CDR )、 设 备 和 传感器 信息 、GPS 和 地 
理 定 位 映射 数据 、 通 过 管理 文件 传输 ( Manage File Transfer ) 协议 传送 的 海量 
图 像 文 件 、Web 文本 和 点 击 流 数据 、 科 学 信息 、 电 子 邮 件 ， 等 等 。 三 是 海量 数 
据 处 理 : 大 数据 的 涌现 已 经 催生 出 了 设计 用 于 数据 密集 型 处 理 的 架构 ， 例 如 具 
有 开放 源码 、 在 商品 硬件 群 中 运行 的 Apache Hadoop。Hadoop 是 一 种 以 可 靠 、 
高 效 、 可 伸缩 的 方式 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 。 它 的 可 靠 性 在 于 
提前 假设 计算 元 素 和 存储 会 失败 ， 因 此 它 维护 多 个 工作 数据 副本 ， 确 保 能 够 针 
对 失败 的 节点 重新 分 布 处 理 ; 高 效 性 则 表现 在 它 以 并 行 的 方式 工作 ， 通 过 并 行 
处 理 加 快 处 理 速 度 。Hadoop 还 是 可 伸缩 的 ， 能 够 处 理 PB 级 数据 。 此 外 ,由 
于 Hadoop 依赖 于 社区 服务 器 ， 因 此 它 的 成 本 比较 低 ， 任 何人 都 可 以 使 用 。 对 
于 企业 来 说 ， 难 题 在 于 以 具备 成 本 效益 的 方式 快速 可 靠 地 从 Hadoop 中 存 取 数 
据 。 脸 谱 是 Hadoop 最 知名 的 用 户 之 一 。 通 过 Hadoop, ， 类 似 脸 谱 的 社交 网 站 


® Informatica， 企 业 数 据 集成 解决 方案 提供 商 ，1993 年 创立 于 美国 加 利 福 尼 亚 州 ， 并 于 1999 年 4 月 
在 纳 斯 达 克 上 市 〈 纳 斯 达 克 代 码 : INFA )。 已 在 国内 成 立 北京 、 上 海 、 广 州 、 台 湾 及 香港 分 公司 。 
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和 类 似 国 内 淘宝 网 的 商业 网 站 实现 了 “推荐 你 可 人 E 认 识 的 人 ”“ 可 能 想 读 的 书 ”、 
可 能 喜欢 的 商品 ”等 服务 。 


WB) 大 数据 与 云 计算 有 | || 


我 们 再 来 了 解 一 下 与 大 数据 密切 相关 的 “ 云 计算 ”概念 ie 
主编 姜 奇 平 认为 ， 大 数据 并 不 像 某 些 人 说 的 ， 是 云 计算 之 “后 ”的 又 一 浪 ， 
就 是 云 计 算 本 身 ， 因 为 两 者 都 是 数据 的 大 规模 集聚 与 定制 化 分 布 的 结合 

ead 的 基本 原理 是 ， 使 计算 分 布 在 大 量 的 分 布 式 计算 机 上 ， 而 非 本 地 计 

意 台 笔记 本 或 者 一 个 手机 等 互联 网 
需要 的 一 切 ， 包 括 浏览 文档 、 图 片 、 视 
频 ， 其 至 运 行 超级 计算 这 样 的 任务 云 计算 的 应 用 包含 这 样 的 一 种 思想 : 把 力 
量 联 合 起 来 ， 给 其 中 的 每 一 个 成 员 使 用 。 云 计算 的 演进 如 图 1-4 所 示 : 


图 1-4 云 计算 的 演进 " 


终端 用 户 通过 网 络 浏览 器 或 手机 应 用 程序 使 用 云 计 算 ， 而 这 些 商 业 软件 和 
数据 被 存储 于 距离 遥远 的 服务 器 上 。 支 持 者 声称 云 计算 使 得 企业 的 程序 运行 得 
更 有 效 ， 更 迅速 。 通 过 提高 管理 性 能 和 缩减 维护 费用 ， 并 且 对 IT 进行 强化 使 
其 能 更 迅速 地 对 资源 做 出 调整 ， 以 满足 流动 性 和 不 可 预见 的 商业 需求 。 

云 计 算 的 概念 可 以 回溯 到 20 世 纪 60 年 代 ， 约翰 " 麦卡锡 ohn 


O 图 片 来 源 : 中 国 云 计算 网 ，http://www.cloudcomputing-china.cn/ 
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McCarthy ) 0 曾 预 言 “有朝一日, 计算 可 能 会 变 成 公共 设施 "。 几 乎 所 有 当今 云 
计算 的 特征 ( 弹性 供给 、 作 为 公共 设施 提供 、 在 线 、 无 穷 供 给 )， 道格拉斯" 帕 
克 希 尔 (Douglas Parkhill ) 8 在 他 1996 年 出 版 的 著作 《效用 计算 的 挑战 》( The 
Challenge of the Computer Utility ) 中 都 已 涉及 。 另外 ,他 在 书 中 还 提 到 了 去 计算 ， 
电力 工业 与 公共 使 用 ， 私人、 政府 与 社区 使 用 形式 的 对 比 等 内 容 。 其 他 学 者 表 
示 云 计算 的 起 源 可 以 提前 到 20 世纪 50 年 代 。 当 时 ,计算 机 科学 家 赫 伯 ， 格 劳 
希 (Herb Grosch ) 8 假设 整个 世界 将 在 由 大 约 15 个 巨大 的 数据 中 心 运作 的 终端 
上 运作 。 

沃尔玛 或 者 谷歌 这 样 的 大 公司 ,很 早 就 开始 使 用 云 服务 ,但 是 成 本 极其 昂 
Bt, 今天 的 商业 硬件 、 云 建筑 及 开源 软件 正在 将 大 数据 带 入 普及 民用 的 领域 。 
即使 是 在 车 库 中 创业 的 公司 也 可 以 用 较 低 的 价格 租用 云 服 务 了 (Edd，2012 )。 
云 计 算 应 用 的 快速 增长 得 益 于 高 效 网 络 的 普遍 适应 性 、 低 成 本 的 电脑 、 存 储 设 
备 以 及 硬件 虚拟 化 的 广泛 应 用 等 因素 。 

如 果 说 “ 云 计算 ”是 大 数据 时 代 必 备 的 技术 平台 的 话 , 那 么 “ 众 包 ”( crowd 
sourcing ) 业务 就 是 大 数据 时 代 全 新 的 生产 组 织 模式 。 这 是 《 连 线 》( Wired ) 
杂志 2006 年 发 明 的 专业 术语 ， 用 来 描述 一 种 新 的 商业 模式 ， 即 企业 利用 互联 
网 来 将 工作 分 配 出 去 、 发 现 创意 或 解决 技术 问题 。 通 过 互联 网 控制 ， 这 些 组 织 
可 以 利用 志愿 员工 大 军 的 创意 和 能 力 一 一 这 些 志愿 员工 具备 完成 任务 的 技能 ， 
愿意 利用 业余 时 间 工 作 ， 满 足 于 对 其 服务 收取 小 额 报 酬 ， 或 者 暂时 并 无 报酬 , 
仅仅 满足 于 未 来 获得 更 多 报酬 的 前 景 。 尤 其 对 于 软件 业 和 服务 业 ， 这 提供 了 一 
种 组 织 劳 动力 的 全 新 方式 。 

“ 众 包 ”模式 使 得 科学 发 现 不 再 是 专业 学 者 埋头 于 实验 室 的 苦 差 事 ， 而 是 
全 球 科 学 家 、 学 生 和 感 兴 趣 的 民众 都 可 以 参与 的 大 众 活动 。 谷 歌 公 司 在 这 个 领 
域 做 了 许多 工作 ， 他 们 开发 了 Google.org 一 一 这 是 一 个 利用 谷歌 在 信息 技术 处 
理 数据 方面 特长 建立 的 全 球 公众 都 能 够 参与 的 科学 研究 平台 。 从 2008 年 11 月 
起 ，Google.org 启动 了 名 为 “流感 趋势 ”的 项 目 ， 使 用 一 种 复杂 的 算法 ， 对 关 
于 流感 的 网 络 搜索 进行 跟踪 ， 从 而 对 流感 在 人 群 当 中 传播 的 方式 作出 估计 。 其 
Ja, Google.org 还 组 织 了 地 球 引擎 项 目 , 将 大 量 的 卫星 图 像 和 数据 开放 给 公众 ， 
让 每 个 人 都 可 以 对 气候 影响 下 的 水 源 变 化 和 沙漠 化 进行 跟踪 研究 。 这 些 项 目 都 
在 寻求 一 种 “长 尾 效 应 ”， 用 来 解决 过 去 一 直 无 法 展开 研究 的 科学 难题 O N A 


@ John McCarthy ( 1927—2011 ), 美国 人 ,普林斯顿 大 学 数学 博士 。 计 算 机 科学 家 、 认 知 科学 家 , 被 誉 为 
“人 工 智能 之 父 ”。 

QD 加 拿 大 计算 机 专家 ,“ 云 计算 ”概念 的 提出 者 。 

@ Herb Grosch ( 1918—2010 )， 提 出 “ 格 劳 希 法 则 ”( Grosch’s Law )。 认 为 计算 机 越 大 越 好 ,计算 机 
的 大 小 决定 其 运算 速度 。 
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, 2011). 


M4) 大 数据 的 价值 有 | | | 


麦肯锡 全 球 研究 所 报告 《大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 前 沿 》 
(James et al., 2011 ) 指出 ， 对 企业 而 言 ， 大 数据 的 价值 体现 在 两 个 方面 : 分 析 
使 用 和 二 次 开发 。 大 数据 的 分 析 使 用 可 以 揭示 之 前 由 于 分 析 成 本 太 高 而 忽略 的 
信息 , 如 消费 者 的 同伴 影响 了 、 购物 交易 信息 分 析 、 社 交 网 络 信息 和 地 理 数据 等 。 
过 去 的 10 年 中 ， 大 数据 分 析 方 面 已 经 积累 了 一 些 开发 新 产品 和 新 数据 的 成 功 
经 验 ， 比 如 数据 推送 改变 了 Facebook 一 类 社交 网 站 的 商业 化 模式 ， 其 8 亿 用 
户 潜在 的 个 人 信息 和 商业 价值 都 能 被 转换 成 各 类 广告 用 途 ， 与 广告 主 对 接 ， 哪 
怕 用 户 的 一 句 “ 最 近 胃 疼 ” 的 状态 更 新 ， 也 会 吸引 胃 药 广告 和 保险 广告 的 “ 轮 
RKE” o 

对 个 人 而 言 ， 智 能 手机 的 普及 为 开发 大 数据 应 用 搭载 了 最 好 的 平台 。 苹 
果 公 司 2011 年 秋天 发 布 了 iPhone 手机 上 的 问答 软件 Siri。 这 款 软件 源 起 于 五 
角 大 楼 的 一 项 研究 ， 之 后 却 成 了 硅谷 的 一 项 创新 产品 。 蔷 果 公 司 2010 年 买 人 
Siri 技术 ， 并 不 断 加 入 更 多 数据 。 如 今 ， 使 用 苹果 手机 的 人 们 提供 了 数 以 百 万 
计 的 问题 ，Siri 正在 成 长 为 一 个 越 来 越 熟 练 称职 的 个 人 助理 ， 提 供 事件 提醒 、 
天 气 预报 、 就 餐 建 议 等 服务 ， 回 答 的 问题 也 愈加 广泛 。 

在 种 类 繁多 的 大 数据 中 ， 有 一 类 是 探测 人 们 所 在 位 置 时 产生 的 定位 信息 。 
GPS 技术 的 不 断 发 展 使 得 我 们 可 以 在 几 十 米 的 距离 内 定位 像 手 机 那么 小 的 装 
置 ， 同 时 我 们 也 看 到 了 个 人 位 置 数据 被 用 来 创造 新 的 商业 和 创新 企业 模式 ， 这 
种 模式 几乎 涉及 全 球 每 个 人 的 生活 。 

个 人 定位 数据 涉及 通信 、 和 零售 、 媒 介 等 多 个 行业 。 这 个 领域 缠 含 着 创造 新 
价值 的 巨大 潜力 ， 麦肯锡 全 球 研究 所 预测 服务 提供 商 将 获得 超过 1000 亿美 元 
的 收入 ， 为 消费 者 和 终端 用 户 创造 的 价值 将 达 7000 亿美 元 。 

早期 个 人 定位 数据 的 来 源 是 个 人 信用 卡 和 借 记 卡 付款 ,消费 者 在 销售 点 终 
端 (POS ) 的 固定 地 点 刷卡 ， 与 个 人 身份 识别 数据 相关 联 。 

随 着 手机 用 户 增加 ,使 用 基站 信号 定位 越 来 越 普 遍 。 现 在 ,许多 智能 手机 
配备 WIFI 网 络 功能 ， 这 是 用 来 收集 定位 数据 的 另 一 个 来 源 。Skyhook 一 类 的 
服务 商 将 不 同 WIFI 网 络 的 物理 位 置 绘制 在 地 图 中 ， 移 动 设备 通过 联 入 搜索 到 
的 WIFI 网 络 ,广播 自己 的 位 置信 息 。 智 能 手机 技术 使 个 人 位 置 数据 更 准确 也 


® 即 peer influence， 指 人 们 效仿 同类 中 某 种 流行 行为 的 影响 力 。 
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更 容易 获得 ， 尤 其 对 移动 设备 应 用 程序 的 开发 人 员 来 说 。 此 外 ,正在 开发 的 新 
技术 甚至 可 以 收集 在 GPS 信和 号 极 弱 的 建筑 内 的 个 人 定位 数据 。 

如 今 ， 导 航 设备 、 基 站 跟踪 、 智 能 手机 是 大 多 数 定位 数据 的 来 源 。 导 航 设 
备 频 繁 更 新 位 置 数据 导致 数据 量 峰 升 ; 全 球 庞大 的 手机 用 户 群 产生 的 个 人 定位 
数据 相当 惊人 ; 而 智能 手机 用 户 使 用 的 各 种 应 用 程序 要 求 定位 跟踪 ， 也 使 得 定 
位 数据 快速 增长 。 来 自 麦肯锡 的 数据 表明 ，2009 年 全 球 范围 生成 的 个 人 定位 
数据 超过 1 拍 字 节 ， 并 且 以 每 年 约 20% 的 速度 增长 。 

日 益 增 长 的 手机 用 户 群 每 天 都 在 生成 庞大 的 数据 ， 亚 洲 已 成 为 产生 个 人 定 
位 数据 的 领先 地 区 。2010 年 ,中 国 的 手机 用 户 世 界 第 一 , 达 8 亿 部 ;印度 排 第 二 ， 
超过 6.5 亿 部 ; 北美 大 约 是 3 亿 部 ， 位 列 第 三 。( 见 图 1-5 ) 

© 基本 功能 手机 (Basic) 


m 类 智能 手机 (Smart feture) 
m 智能 手机 (Advanced) 


2010 年 手机 数量 (单位 : 百 万 部 ) 
Basic Smart feature Advanced 
j -13 5 33 
印度 M 678 3 10 31 
AA | 4 7 
亚洲 其 他 国家 | 3 17 
欧洲 | 110 | -4 16 
中 东 , 北非 [76 87 3 22 


攻关 BREE 307 ~~ 2 


图 1-5 移动 电话 在 各 国 使 用 情况 ? 


个 人 定位 数据 主要 应 用 在 以 下 三 方面 : 一 是 个 人 使 用 的 定位 服务 ， 包 括 智 
能 路 由 、 汽 车 车 载 智能 通讯 、 智 能 手机 移动 定位 等 ; 二 是 个 人 定位 数据 组 织 性 
的 使 用 ， 比 如 地 理 定位 广告 、 电 子 收费 、 保 险 定价 和 应 急 响 应 ; 三 是 聚合 定位 
数据 在 宏观 层面 上 的 使 用 ， 包 括 城市 规划 和 零售 业务 智能 。 

定位 数据 体现 了 互联 网 技术 与 移动 终端 的 不 断 融 合 ; 而 “ 众 包 ”这 种 大 
数据 时 代 全 新 的 生产 组 织 模式 ， 则 影响 着 这 个 世界 传统 的 思维 逻辑 。 从 20 世 


O 资料 翻译 自 : 麦肯锡 全 球 研究 所 报告 《大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 前 沿 交 
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纪 90 年 代 互 联网 搜索 引擎 投入 民用 以 来 ， 科 学 家 就 一 直 试 图 通过 互联 网 在 时 
时 更 新 的 线索 中 发 现下 一 个 全 球 流行 疾病 的 线索 。 这 个 数据 挖掘 项 目 很 长 一 段 
时 间 中 都 处 在 科学 实验 的 阶段 ， 直 到 2008 年 11 月 谷歌 推出 了 流感 趋势 监测 系 
统 ( Google Flu Trends” )， 这 是 一 个 运用 类 似 数据 “ 众 包 ”处 理 方案 ( Crowd 
sourcing ) 预测 流感 暴发 情况 的 在 线 数据 处 理 平台 。 谷 歌 的 科研 团队 发 现 ， 每 
周 世 界 上 都 有 上 千 万 的 互联 网 用 户 在 线 搜索 健康 信息 ,在 流感 高 发 期 ,以 “流感 ” 
为 关键 词 的 在 线 检索 会 大 大 增加 ; 过 敏 高 发 期 以 “过 敏 ” 为 关键 词 的 在 线 检 
索 增加 ; 到 了 夏天 ， 这 一 高 频 检索 词 则 换 成 了 “了 晒 伤 ”…… 他 们 意识 到 也 许 是 
已 经 感染 流感 病毒 的 人 群 才 会 上 网 检索 相关 信息 ， 在 流行 病 疫 情 和 在 线 检索 行 
为 之 间或 许 存在 某 种 关联 性 .尽管 不 是 所 有 搜索 流感 信息 的 人 都 真 的 得 了 流感 ， 
但 所 有 检索 信息 至 加 就 会 呈现 出 一 种 趋势 。 谷 歌 的 科研 团队 将 通过 分 析 网 上 检 
索 信 息 得 到 的 趋势 与 传统 流感 监测 系统 相 比 较 ， 发 现 检索 高 频 区 正 是 流感 暴发 
区 。 他 们 认为 通过 计算 在 线 检索 行为 的 频率 ， 可 以 预测 世界 上 不 同 国家 和 地 区 
的 流感 暴发 程度 ， 并 在 2009 年 2 月 的 科学 杂志 《自然 》 发 表 了 这 一 题 为 《使 
用 搜索 引擎 查询 数据 监测 流感 疫情 》 的 研究 成 果 ( Jeremy et al., 2009 )。2012 年 ， 
杜 佳 斯 和 她 的 团队 将 这 一 成 果 的 数据 与 前 去 相关 暴发 地 医院 就 医 的 数字 进行 比 
较 ， 发 现 紧 随 网 上 增长 的 检索 行为 ， 短 期 内 医院 就 医 人 数 出 现 增 加 ( Andrea et 
al., 2012 )。 

继 “ 谷 歌 流感 趋势 ”之 后 ， 还 有 美国 的 “健康 地 图 ”( Health Map?) 和 日 
本 的 “发 现 病毒 ”( Bio Caster? ) 等 在 线 公 共 卫 生 数 据 挖掘 平台 投入 使 用 。“ 健 
康 地 图 ”通过 不 间断 地 扫描 博客 、 推 特 、 官 方 监控 数据 、 新 闻 网 站 和 RSS 链 
接 及 用 户 上 传 的 信息 ， 用 十 种 语言 发 布 监测 结果 ， 美国 卫生 和 公共 服务 部 借助 
与 它 的 合作 发 布 季节 性 流感 趋势 及 HIN1 病毒 在 美国 的 传播 情况 。 约 翰 ' 布朗 
斯 坦 (John Brownstein ) 是 哈佛 大 学 医学 院 、 波 士 顿 儿 童 医院 流行 病 学 家 ， 也 
是 “健康 地 图 ”的 联合 创建 人 之 一 。 他 认为 数据 挖掘 的 意义 在 于 将 监测 数据 
转化 为 有 效 的 健康 护理 ,“ 我 们 更 需要 看 到 ( 数据 处 理 ) 产生 的 影响 ”。 在 他 
看 来 ， 学 界 对 使 用 社交 网 站 挖掘 数据 的 信心 在 不 断 增 加 。2012 年 1 月 ,布朗 
斯 坦 和 他 的 同事 通过 “健康 地 图 ”实现 了 对 2010 年 海地 地 区 霍乱 疾病 的 动态 
监控 ， 比 当地 的 医疗 工作 者 通过 传统 数据 检测 发 布 的 报告 提前 了 2 周 (Trop et 
al., 2012 )。 布 朗 斯 坦 表示 ,“ 随 着 我 们 使 用 数据 挖掘 技术 发 布 论文 的 增多 ， 相 
信 会 有 越 来 越 多 的 研究 者 会 接受 这 种 方法 的 合法 性 ”。 和 鲁 米 ， 川 那 拉 (Rumi 


(D http://www.Google.org/flutrends/, 
@) http://www.healthmap.org/zh/。 
® http://biocaster.nii.ac.jp/. 
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Chunara ) 是 哈佛 医学 院 研究 生物 传感器 的 工程 师 。 他 认为 非 正 式 数据 是 传统 
监测 方式 的 有 益 补 充 ， 尤 其 是 在 拥有 较 少 健康 资源 但 手机 拥有 率 较 高 的 地 区 和 
人 和 群 中 。 

“发 现 病毒 ”的 开发 者 奈 杰 尔 ， 科 利 尔 (Nigel Collier) 是 位 于 东京 的 日 本 
国立 信息 情报 研究 所 的 计算 机 专家 。 他 认为 对 于 自动 化 工作 的 软件 来 说 ,一 大 
难点 是 如 何 从 大 量 数字 垃圾 中 解析 出 有 用 信息 ， 他 的 主要 工作 就 是 通过 软件 过 
滤 互 联网 上 的 垃圾 信息 。 科 利 尔 认为 从 自 媒 体 采 集 的 数据 与 官方 发 布 的 数据 相 
比 享 有 更 多 的 优势 ， 比 如 地 理 覆 盖 面 更 广 、 语 义 信息 更 丰富 、 成 本 更 低 。 美 国 
疾病 预防 控制 中 心 、 世 界 卫 生 组 织 、 欧 洲 疾病 预防 控制 中 心 和 日 本 卫生 部 都 和 
科 利 尔 的 “发 现 病毒 ”有 合作 ， 它 们 的 成 果 包 括 追踪 HINI 流行 病 和 海地 爆发 
的 霍乱 等 。 除 此 之 外 ， 科 利 尔 的 系统 在 监测 互联 网 不 发 达 的 国家 的 其 他 疾病 时 
也 取得 了 很 好 的 效果 。 和 “健康 地 图 ”一 样 , “发 现 病毒 ”无 偿 发 布 信息 ， 但 
其 工作 主要 基于 亚洲 的 新 闻 资 源 和 搜索 引擎 ， 比 如 百度 和 搜 搜 。 

“健康 地 图 ”和 “发 现 病毒 ”这 样 的 疾病 跟踪 服务 系统 ， 改 变 了 世界 卫生 
组 织 和 美国 疾病 防 控 中 心 一 类 的 卫生 组 织 监 控 流行 病 暴发 和 应 急 反 应 的 方式 。 
林 恩 ， 非 内 莉 (Lyn Finelli ) 是 亚特兰大 疾病 防 控 中 心 监控 及 暴发 反应 组 组 长 。 
她 说 ,“ 如 果 有 人 打 电 话说 某 个 国家 有 学 校 因为 流感 暴发 停课 了 ， 我 们 要 做 的 
第 一 件 事 就 是 在 “健康 地 图 上 查询 "， 并 表示 ， 在 疾病 防 控 中 心 看 来 数字 
疾病 监测 项 目 搜集 到 的 信息 可 信 度 很 高 ， 也 便于 反馈 。 她 同时 认为 新 型 数据 监 
测 的 项 目 不 能 取代 传统 信息 收集 方式 , 但 “有 助 于 我 们 把 力气 使 在 对 的 地 方 ”。 

和 社交 媒体 上 迅速 传播 的 话题 相 比 ， 流 行 病 的 发 生 相 对 缓慢 ， 即 使 是 一 
种 突然 暴发 的 疾病 ， 也 需要 几 周 才能 确认 病例 。 有 些 研究 者 开始 使 用 谷歌 新 
闻 、 推 特 或 脸谱 等 社交 网 站 实现 快速 追踪 流行 病 ， 提 供 医 疗 援助 。 豪 特 (Taha 
Kass Hout ) 是 位 于 亚特兰大 的 疾病 防 控 中 心 信息 科学 部 副 主任 ， 他 认为 “ 既 
然 社交 媒体 已 经 存在 ， 我 们 就 要 好 好 利用 "。2012 年 2 月 ,《 自然 》 发 布 消 息 
称 ， 这 一 技术 目前 已 开始 在 全 球 范围 内 的 公共 健康 机 构 中 使 用 。2012 年 2 月 ， 
计算 机 界 和 流行 病 界 的 顶级 专家 ， 齐 聚 哈佛 医学 院 参 加 数字 疾病 监测 国际 研讨 
会 ， 讨 论 类 似 推 特 和 社交 媒体 上 的 “ 非 正 式 ” 信 息 如 何 快 速 地 改变 疾病 监测 
(Rebecca, 2012 )。 

并 非 公共 健康 领域 的 每 个 人 都 准备 好 了 迎接 这 场 数据 革命 。 安 德 烈 ， 杜 加 
Hi ( Andrea Dugas ) 是 位 于 马里 兰州 巴尔 的 摩 的 约翰 霍 普 金 斯 医院 的 急诊 病 学 
研究 学 者 ， 他 认为 目前 使 用 非 正 式 数据 工具 需要 审慎 的 态度 ， 在 这 项 技术 成 为 
决定 公共 健康 相关 政策 的 核心 之 前 ， 还 要 进一步 检测 其 可 信和 度 。 哈 佛 大 学 公共 
卫生 学 院 (波士顿 ) 的 流行 病 学 家 马克 ， AREI (Marc Lipsitch ) 认为 “ 数 
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据 挖掘 系统 发 现 的 是 暴发 情况 ， 而 不 是 具体 案例 ”， 数 字 跟 踪 平 台 只 能 提供 补 
充 信 息 ， 不 能 取代 传统 信息 收集 方式 。 

仅 赁 互联 网 上 的 日 常 闲 聊 ， 并 不 能 解析 出 重要 的 疾病 信息 ， 这 也 是 公共 
健康 官员 们 认为 网 基 协 议 ( Web-based protocal ) 不 能 取代 传统 流行 疾病 评估 的 
原因 。 目 前 鲜 有 证 据 能 证 明 这 些 数据 处 理 平台 的 稳定 性 和 可 信 性 。 科 学 家 们 计 
划 开 展 更 大 规模 的 研究 ， 检 测 推 特 和 谷歌 “流感 趋势 ”一 类 的 数据 处 理 平台 
能 和 否 在 更 广泛 的 地 理 区 域内 实现 对 多 病 种 的 预测 。 劳 伦 斯 " 马 多 夫 (Lawrence 
Madoff ) 是 位 于 伍 斯 特 的 马萨诸塞 大 学 医学 院 传染 病 专家 ， 他 编写 了 “新 出 现 
疾病 监控 程序 ”( ProMED )， 这 是 世界 最 大 的 开源 ( Open sourcing ) 疾病 暴发 
报告 系统 之 一 ， 但 他 指出 是 疾病 防 控 中 心 通过 传统 的 病例 汇报 发 现 了 2009 年 
WY HINI 流感 暴发 ， 而 不 是 在 线 监 测 系统 。 马 多 夫 认 为 数据 挖掘 技术 比 以 前 
有 了 长 足 进步 ， 但 仍然 存在 局 上限， 他 说 “我 们 需要 判断 什么 对 我 们 来 说 是 重 
要 的 ”。 

另外 ， 即 使 流行 病 监 控 可 以 与 现实 同步 ， 有 效 的 健康 服务 仍然 依仗 财力 和 
医疗 资源 。 加 拿 大 多 伦 多 大 学 达 拉 拉 娜 公共 卫生 学 院 的 流行 病 学 家 大 卫 ， 非 斯 
曼 (David Fisman ) 认为 ， 预 测 或 者 监控 流行 病 的 暴发 并 不 能 真正 改变 疾病 防 
控 的 现状 。 

“谷歌 地 图 ”是 谷歌 公司 提供 的 另 一 种 “ 众 包 ” 业 务 。 它 为 包括 谷歌 地 图 
网 站 、 和 谷歌 搜 寻 器 、 谷 歌 交通 等 其 他 的 地 图 程序 提供 支持 ， 并 且 使 地 图 成 为 三 
维 形式 ， 它 提供 世界 各 地 的 许多 国家 的 街道 地 图 路 线 ， 包 括 徒步 、 汽 车 、 自 行 
车 或 公共 交通 和 城市 商业 定位 。 

“谷歌 地 图 ”提供 了 世界 各 地 的 城市 地 区 高 分 辩 率 的 卫星 图 像 ， 各 国 的 政 
府 都 在 抱怨 恕 怖 分 子 可 能 利用 这 些 图 像 实施 恐怖 袭击 。 谷 歌 已 经 模糊 了 一 些 重 
要 领域 ( 主要 是 美国 )， 包 括 美 国 海军 天 文 台 区 ( 副 总 统 的 官邸 所 在 地 ) 和 以 
前 美国 国会 及 白宫 。 其 他 知名 的 政府 设施 ,包括 51 区 在 内 华 达 州 的 沙漠 都 是 
可 见 的 。 谷 歌 的 映射 引擎 促使 民众 对 卫星 图 像 的 兴趣 高 涨 。 大 多 数 高 分 辨 率 图 
像 的 城市 是 取 自 800~1500 英尺 的 飞机 空中 摄影 ， 其 余 大 部 分 剩余 的 图 像 则 来 
自卫 星 。 虽 然 这 些 数 据 并 不 是 随时 更 新 ,但 有 时 这 些 数 据 也 会 和 一 些 时 间 吻 合 ， 
例如 2011 年 10 月 8 日 ， 关 于 洛杉矶 好 莱 坞 的 地 图 正好 与 奥斯卡 典礼 的 摆设 相 

人 

大 数据 的 故事 正在 书写 , 却 已 带 来 了 丰厚 的 经 济 回报 。2004 年 8 月 18H, 
谷歌 上 市 ， 融资 17 亿美 元 ， 这 个 现在 看 起 来 不 起 眼 的 数字 ， 在 那个 互联 网 泡 
沫 破灭 ， 投 资 者 们 着 小 慎 微 ， 转 而 寻求 医药 、 能 源 等 领域 投资 机 会 的 时 代 , 已 
经 称 得 上 是 一 次 了 不 起 的 成 功 。 谷 歌 的 上 市 重 燃 了 全 球 不 知 多 少 IT 青年 的 创 
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业 梦 一 一 当年 ， 扎 克 伯 格 就 在 哈佛 大 学 的 学 生 宿舍 中 创立 了 自己 的 公司 。 全 球 
团购 网 站 的 鼻祖 Groupon 2011 年 11 月 3 日 上 市 ， 融 资 额 7 亿美 元 ， 首 日 收盘 
报 26.11 美元 ， 较 20 美元 的 发 行 价 上 涨 30.6%。 中 国 社交 网 站 人 人 网 2011 年 
5 月 3 日 上 市 ， 融 资 额 7.43 亿美 元 。2012 年 5 月 18 日 ， 全 球 最 大 社交 网 络 公 
司 Facebook 在 纳 斯 达 克 上 市 , IPO 发 行 价 为 每 股 38 美元 , 计划 发 行 4.21 亿 股 
估 值 达 1040 亿美 元 ， 成 为 美国 有 史 以 来 上 市 时 市 值 最 大 的 企业 。 


9.5) 大 数据 面临 的 大 挑战 有 | | | 


随 着 数据 的 增多 ， 麻 烦 似 乎 也 随 之 而 来 。 迈 克 ， 斯 通 布雷 克 (Michael 
Stonebraker ) ”教授 今年 2 月 在 《美国 计算 机 协会 通讯 》( Communications of 
the ACM ) 期 刊 发 表 了 一 篇 题 为 《研究 者 的 大 数据 危机 》 的 专栏 文章 。 文 中 描 
绘 一 位 大 学 教授 ,调查 了 他 周围 19 位 同事 ， 发 现 加 上 他 自己 ， 这 20 个 研究 
团队 所 需要 处 理 的 数据 都 超过 100TB®, 也 就 是 说 这 20 个 研究 团队 的 数据 处 理 
量 几 近 1PB@。 普 通 的 服务 器 根本 承载 不 了 如 此 庞大 的 数据 集 ， 而 类 似 EC2 一 
类 的 亚马逊 弹性 计算 云 服 务 ( 基于 网 络 的 计算 服务 ， 该 服务 可 使 企业 用 户 在 
Amazon.com 计算 环境 下 运行 应 用 程序 ) 价格 又 过 于 昂贵 ， 一 般 的 科研 项 目 也 
支付 不 起 。 斯 通 布雷 克 教 授 由 此 呼吁 美国 政府 抽出 “庞大 运算 项 目 ”( Massive 
computing ) 中 的 小 部 分 预算 给 “庞大 数据 管理 ”( Massive data management ), 
从 建立 一 个 容量 400PB 的 数据 服务 器 开始 ， 并 交 给 真正 懂得 大 数据 的 人 管理 。 
在 专栏 文章 的 最 后 他 提出 ,“ 总 得 有 个 更 好 的 法 子 ”， 因 为 “困难 总 是 越 来 越 
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威 瑞 森 通讯 公司 (Verizon Communications ) © 的 迈克 博 迪 (Michael L. 
Brodie ) 认为 ， 当 下 我 们 面临 的 大 数据 挑战 来 自如 何 有 效 管理 难以 想象 的 海量 
数据 以 及 如 何 将 这 些 海量 数据 整合 成 我 们 所 需要 的 有 效 信息 ， 而 不 只 是 页 酷似 
的 玩弄 技巧 。 鉴 于 计算 机 科学 的 每 个 领域 都 有 着 各 自 的 理论 和 应 用 ， 多 学 科 集 


(@ Michael Stonebraker ,数据 库 科 学 家 ,SQL Server/Sysbase 奠基 人 ,于 1992 年 提出 对 象 关系 数据 库 模型 ， 
在 加 州 伯克利 分 校 担任 计算 机 教授 达 25 年 。 现 任 MIT 麻 省 理工 学 院 客席 教授 。 

@ 1TB (Trillionbyte， 万 亿 字 节 ， 又 称 太 字 节 六 1024GB。TB 是 现在 电脑 硬盘 最 大 的 存储 量 单位 ， 
10TB 大 约 相当 于 一 个 人 脑 的 信息 存储 量 。 

@ 1PB (Petabyte， 千 万 亿 字 节 ， 又 称 拍 字 节 ) =1024TB. 

© 威 瑞 森 通讯 公司 1983 年 成 立 于 费城 ， 是 美国 第 一 大 地 方 电话 公司 和 第 二 大 电信 服务 商 ， 拥 有 1.12 
亿 固 定 电话 接 入 线 和 2800 万 移动 用 户 。 该 公司 也 是 世界 上 最 大 的 话 短 出 版 和 在 线 话 短 检 索 公司 。 
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合 的 “大 数据 ” 便 有 可 能 成 为 一 种 集成 问题 解决 方案 ( Brodie et al., 2011 )。 例 
如 ， 在 美国 的 医疗 保健 大 数据 库 (US Healthcare Big Data World) 里 ,保存 着 
散布 在 全 美 范围 的 5000 万 个 病人 的 信息 。“ 有 效 使 用 ”的 意思 就 是 ， 如 果 输 入 
“年 龄 在 54 周岁 、 高 中 辍学 的 白人 女性 ， 血 压 水 平 为 130080，8 受 体 阻 滞 剂 ? 
治疗 组 ， 出 现 某 两 种 并 发 症状 ， 正 在 服用 某 三 种 药物 ”的 信息 ， 可 以 在 数据 库 
里 匹配 到 另 一 个 “年 龄 在 54 周岁 、 高 中 辍学 的 白人 女性 ， 血 压 水 平 为 150/80, 
ACE 抑制 剂 2 治疗 组 ， 目 前 在 服用 同样 药物 ”的 信息 ( Begley 2011 )。 

针对 这 一 案例 ,“ 有 效 使 用 ”可 以 分 解 为 如 下 步骤 : ( 1) 明确 问题 。 比 如 
“针对 54 周岁 女性 高 血压 患者 的 有 效 药物 ”; (2 ) 数据 检索 匹配 。 比 如 “所 有 
的 54 周岁 女性 高 血压 患者 ”; ( 3 ) 格式 化 (ETL) 信息， 等 待 处 理 ; (4 ) 获 
取 实 际 解决 方案 。 实 际 解决 方案 可 能 涉及 所 有 54 周岁 高 血压 女性 患者 的 情况 ， 
进一步 的 挑战 在 于 析出 不 同 变量 ， 比 如 成 千 上 万 个 54 周岁 女性 高 血压 患者 的 
其 他 身体 指标 、 社 会 网 络 、 薪 金 、 受 教育 程度 等 ; (5 ) 回答 并 解决 问题 ， 比 如 

事实 上 ,在 任何 一 个 数据 库 中 ， 非 结构 性 数据 ( 图 片 、 声 音 和 视频 ) 所 占 
比例 都 越 来 越 高 ， 数 据 储存 量 从 早先 的 吉 字 节 已 经 发 展 到 了 太 字 节 、 拍 字 节 和 
艾 字 节 ， 结 构 性 数据 在 美国 医疗 保健 大 数据 库 中 的 比例 已 不 足 10%， 并 且 这 
一 比例 还 在 急速 下 降 。 大 多 数 关联 子 数据 库 的 语义 格式 并 不 兼容 ， 因 此 大 部 分 
的 数据 分 析 仍 然 需要 人 工 , 这 是 实现 以 大 数据 库 为 基础 的 “集成 问题 解决 方案 ” 
的 难点 所 在 ， 也 即 博 迪 提 到 的 语义 ( 正确 性 ) 和 工程 (效率 性 ) 局 限 。 


[1.5.2 海量 数据 意味 着 增加 了 有 效 使 用 数据 的 难度 


当下 的 Web 3.0 时 代 是 “基于 数据 的 网 络 ” 时 代 (Web of Data )， 互 联 
网 已 经 成 为 一 个 超大 的 关系 型 数据 库 ( 表 1-1 )。 其 特征 为 : (1) 个 性 为 主 ; 
(2 ) 强调 用 户 体验 ;(3 ) 良好 的 模块 制定 功能 ; (4 ) 数据 整合 能 力 强 ( 周 珍 
妮 ， 陈 莫 荣 ，2008 )。 据 统计 ， 现 有 数据 网 络 含有 310 亿 个 RDF@ 三 元 组 ， 其 中 
4000 多 万 个 RDF 链接 的 三 元 组 将 不 同 数据 源 之 间 的 数据 串 接 起 来 。 这 些 数据 
中 政府 数据 占 41.9%、 地 理 型 数据 占 19.4%、 出 版 和 媒体 类 数据 占 14.8% KÆ 
命 科学 数据 占 9.7%。 


@® Beta blocker, 8 受 体 阻 滞 药 ,一 种 治疗 高 血压 和 心脏 病 的 药物 。 
@ ACE inhibitor， 血 管 紧张 素 转 化 酶 抑制 剂 ， 一 种 高 血压 制剂 。 

(3) ETL 指 Extract ( 析出 )、Transform ( 格式 转换 ) Fil Load (下载 )。 
@ Resource Description Framework， 资 源 描述 框架 。 
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表 1-1 Web 1.0, Web 2.0 与 Web 3.0 比较 (MBSE, 2009) 


Web 1.0 Web 2.0 Web 3.0 
读 ， 单 向 的 、 被 动 的 接 |“ 写 ”和 共同 建设 , 仅 基 | 高 度 自 主权 ,用户 在 互联 网 上 的 


受信 息 于 服务 商 提供 的 平台 信息 数据 可 以 跨 网 站 平台 使 用 
机 械 化 门户 半 智 能 化 完全 智能 化 
搜索 + 个 人 空间 + 门户 基于 搜索 + 个 人 关键 词 标签 + 个 
人 化 空间 + 智能 匹配 的 新 门户 
通过 浏览 器 浏览 网 页 加 上 很 多 通过 Web 分 享 的 | 完全 基于 Web， 用 浏览 器 即 可 实 
其 他 内 容 ， 互 动 性 更 强 现 复杂 的 系统 程序 才 具备 的 功能 


原始 的 大 数据 呈现 出 一 片 混 乱 的 状态 。 从 事 数据 工作 的 人 普遍 认为 80% 
的 精力 都 用 在 了 数据 清理 上 ， 正 如 彼 特 ， GRE (Pete Warden ) ”在 其 著作 《大 
数据 词典 》 中 所 言 :”“ 我 可 能 花 更 多 的 时 间 整 理 那些 杂乱 的 源 数 据 ， 而 不 是 直 
接 就 开始 分 析 数 据 。 

数据 网 在 以 下 三 方面 为 数据 整合 和 大 数据 处 理 增加 了 难度 。 一 是 通用 和 专 
有 词汇 的 使 用 。 像 “人 ”“ 产 品 ”“ 出 版 物 ” 一 类 常见 的 表达 ,关联 数据 (inked 
data ) 2 资源 可 以 借用 ; 但 其 他 常见 表达 里 没有 的 词汇 关联 数据 资源 需要 自 定 
义 。 借 用 更 多 广泛 运用 的 常见 表达 词汇 ， 可 提高 不 同 数据 资源 的 通用 性 。 二 是 
不 同 格式 数据 对 同一 对 象 描述 的 认定 。 不 同 计算 机 语言 之 间 对 同一 对 象 的 描述 
可 能 不 同 ， 比 如 owl:equivalentClass, owl:equivalentProp-erty, rdfs:subClassOf, 
rdfs:subPropertyof。 应 用 程序 如 能 辨识 同一 对 象 在 不 同 语言 中 的 表达 ,将 有 助 
于 数据 集合 和 数据 清理 。 三 是 由 于 媒介 平台 的 开放 性 ， 自 媒体 时 代 人 人 都 在 发 
布 资讯 (数据 )， 大 部 分 的 互联 网 数据 都 是 垃圾 数据 (SPAM )， 因 此 科学 评估 
数据 质量 和 确定 有 价值 的 数据 子 集 也 是 一 大 挑战 (Christian et al., 2011 )。 


915.3 语义 网 技术 的 广泛 应 用 面临 两 大 挑战 
一 是 目前 缺乏 成 功 案例 ; 二 是 从 未 消失 的 数据 整合 困境 ， 使 得 不 同 数据 


D 软件 工程 师 ， 曾 在 苹果 公司 任职 5 年 ， 创 立 网 站 http://www.openheatmap.com/， 实 现 电子 数字 表格 
可 视 化 。 出 版 两 本 大 数据 相关 书籍 :《 大 数据 词典 》( Big Data Glossary, O'Reilly Media, Inc., 2011 ) 
和 《大 数据 手册 》( Big Data Handbook, O'Reilly Media, Inc., 2011 ) 。 

© 万 维 网 创始 人 Tim Berners-Lee 提出 ， 指 语义 万 维 网 第 一 种 可 行 的 表达 形式 ， 实 用 且 可 操作 ， 适 用 
于 各 种 形式 的 数据 。 关 联 数据 是 一 组 最 佳 实践 的 集合 ， 它 采用 RDF 数据 模型 ， 利 用 URI ( 统一 资 
源 标识 符 ) 命名 数据 实体 ， 发 布 和 部 署 实例 数据 及 类 数据 ， 从 而 可 以 通过 HTTP 协议 揭示 并 获取 这 
些 数据 ， 强 调 数据 的 相互 关联 、 相 互联 系 以 及 便于 人 机 理解 的 语 境 信息 。 
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之 间 的 链接 难以 实现 。 数 据 整合 是 互联 网 行业 最 “ 烧 ” 钱 的 领域 之 一 ， 每 年 的 
投入 超过 上 百 亿美 金 。 如 果 个 人 和 企业 可 以 从 中 获取 价值 实现 一 利 ， 那 么 技术 
的 突破 就 不 是 问题 了 。LOD ?数据 抓 取 概 念 源 于 政府 公开 数据 给 含 的 无 限 商机 
(Christian et al.，2011 )， 这 一 概念 认为 实现 图 片 资源 等 非 结构 性 数据 的 搜索 是 
使 用 政府 公开 信息 的 有 效 途径 。 如 果 有 一 家 网 站 可 以 实现 编程 语言 的 搜索 、 数 
据 的 搜索 或 是 网 站 用 户 更 早 前 上 传 图 像 信 息 的 搜索 ， 这 将 成 为 这 一 系统 最 主要 
的 互动 模式 。 要 实现 这 样 的 功能 ， 则 需要 图 像 处 理 、 排 序 方法 、 视 觉 化 、 关 
键 词 匹配 等 各 项 技术 的 成 熟 运用 。2011 年 6 月 ， 搜 索引 擎 网 站 谷歌 (Google ) 
推出 了 “以 图 找 图 ”( Search by Image ) 功能 。 这 一 产品 是 利用 图 片 内 容 、 透 
视 和 颜色 等 因素 进行 图 片 搜索 ， 以 帮助 用 户 找到 近似 的 图 片 搜 索 结 果 。 该 技 
术 采 用 了 自动 图 片 识别 技术 和 元 数据 技术 。Google 图 片 搜寻 引擎 除了 可 以 
让 使 用 者 添加 图 片 网 址 来 搜寻 图 片 ， 也 可 支持 图 片上 传 ， 如 果 用 户 使 用 的 是 
Google 浏览 器 ， 还 可 直接 用 鼠标 拖 虹 图片 的 方式 ， 快 速 上 传 图 片 ， 直 接 搜 寻 
图 片 。 


上 1.5.4 大 数据 平台 需要 可 以 处 理 不 同 种 类 数据 的 数据 整合 技术 


Openlink 公司 2 的 首席 软件 设计 师 奥 瑞 ' RZ (Orri Erling ) 指出 目前 人 
们 已 经 意识 到 了 智能 数据 处 理 的 前 景 ， 但 现实 使 用 情况 几乎 还 是 空白 。 类 似 
现在 运用 的 OWL 语言 ?可 能 是 数据 融合 的 处 理 方式 之 一 ， 但 不 会 是 未 来 的 方 
向 。 目 前 的 关联 数据 和 RDF 在 数据 整合 技术 中 占有 一 席 之 地 ， 它 们 的 国际 通 
用 性 强 ， 且 为 无 预定 数据 模式 。RDF 是 Resource Description Framework 的 缩 
写 ， 即 资源 描述 框架 ， 是 一 个 用 于 表达 关于 万 维 网 (World Wide Web ) 上 的 资 
源 信息 的 语言 。 它 专门 用 于 表达 关于 Web 资源 的 元 数据 ,比如 Web 页 面 的 标题 、 
作者 和 修改 时 间 ，Web 文档 的 版 权 和 许可 信息 ， 某 个 被 共享 资源 的 可 用 计划 表 
等 。 然 而 ， 将 “Web 资源 ”( Web resource ) 这 一 概念 一 般 化 后 ，RDF 可 被 用 
于 表达 关于 任何 可 在 Web 上 被 标识 的 事物 的 信息 ， 即 使 有 时 它们 不 能 被 直接 


® 1976 年 , Clark 提出 了 细节 层次 (Levels of Detail, LOD ) 模型 的 概念 , 认为 当 物体 覆盖 屏幕 较 小 区 域 
时 ， 可 以 使 用 该 物体 描述 较 粗 的 模型 ， 并 给 出 了 一 个 用 于 可 见面 判定 算法 的 几何 层次 模型 ， 以 便 对 
复杂 场景 进行 快速 绘制 。 

@@ OpenLink 公司 是 交叉 资产 交易 、 风 险 管理 和 操作 处 理 软件 提供 商 。 

(3) OWL ( Web Ontology Language ) 是 W3C 开发 的 一 种 网 络 本 体 语言 ， 用 于 对 本 体 进行 语义 描述 。 
h F OWL 是 针对 各 方面 的 需求 在 DAML+OIL 的 基础 上 改进 而 开发 的 ， 所 以 一 方面 要 保持 对 
DAML+OIL/RDFS 的 兼容 性 ; 另 一 方面 又 要 保证 更 加 强大 的 语义 表达 能 力 ， 同 时 还 要 保证 描述 逻 
辑 ( DL，Description Logic ) 的 可 判定 推理 。 
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从 Web 上 获取 。 比 如 关于 一 个 在 线 购物 机 构 的 某 项 产品 的 信息 ( 规格 、 价 格 
和 可 用 性 信息 )， 或 者 是 关于 一 个 Web 用 户 在 信息 递送 方面 的 偏好 的 描述 。 
RDF 使 用 XML 语法 和 RDF Schema (RDFS ) 来 将 元 数据 描述 成 为 数据 
模型 。 数 据 对 资源 的 描述 是 与 领域 和 应 用 相关 的 ， 比 如 对 一 本 书 的 描述 和 对 一 
个 Web 站 点 的 描述 是 不 一 样 的 ， 即 对 不 同 资源 的 描述 需要 采取 不 同 的 词汇 表 。 
一 个 RDF 文件 包含 多 个 资源 描述 ， 而 一 个 资源 描述 是 由 多 个 语句 构成 ， 一 个 
语句 是 由 资源 、 属 性 类 型 、 属 性 值 构成 的 三 元 组 ， 表 示 资 源 具 有 的 一 个 属性 。 
资源 描述 中 的 语句 可 以 对 应 于 自然 语言 的 语句 ， 资 源 对 应 于 自然 语言 中 的 主 
语 , 属性 类 型 对 应 于 谓语 , 属性 值 对 应 于 宾语 , 在 RDF 术语 中 称 其 分 别 为 主语 、 
谓词 、 宾 语 。 由 于 自然 语言 的 语句 可 以 是 被 动 句 ， 因 此 前 面 的 简单 对 应 仅仅 是 
一 个 概念 上 的 类 比 。RDF 规范 并 不 定义 描述 资源 所 用 的 词汇 表 ， 而 是 定义 了 
一 些 规则 ,这 些 规则 是 各 领域 和 应 用 定义 用 于 描述 资源 的 词汇 表 时 必须 遵循 的 。 
通过 RDF， 人 们 可 以 使 用 自己 的 词汇 表 描 述 任何 资源 ， 由 于 使 用 的 是 结构 化 
的 XML 数据 ， 搜 索引 擎 可 以 理解 元 数据 的 精确 含义 ， 使 得 搜索 变 得 更 为 智能 
和 准确 。 如 果 RDF 和 标准 化 的 RDF 词汇 表 在 Web 上 广泛 使 用 ， 而 且 搜 索引 
擎 能 够 理解 使 用 的 词汇 表 , 就 可 以 避免 当前 搜索 引擎 经 常 返回 无 关 数 据 的 情况 。 
数据 库 管 理 系统 ( Database Management System )， 是 一 种 操纵 和 管理 数 
据 库 的 大 型 软件 ， 用 于 建立 、 使 用 和 维护 数据 库 ， 简 称 DBMS。 它 对 数据 库 
进行 统一 的 管理 和 控制 ， 以 保证 数据 库 的 安全 性 和 完整 性 。 用 户 通过 DBMS 
访问 数据 库 中 的 数据 ， 数 据 库 管 理 员 也 通过 DBMS 进行 数据 库 的 维护 工作 。 
DBMS 提供 数据 定义 语言 DDL ( Data Definition Language ) 与 数据 操作 语言 
DML( Data Manipulation Language ), 供 用 户 定 义 数据 库 的 模式 结构 与 权限 约束 ， 
实现 对 数据 的 追加 、 删 除 等 操作 。DBMS 允许 多 个 应 用 程序 和 用 户 用 不 同 的 
方法 在 同时 或 不 同时 刻 去 建立 、 修 改 和 询问 数据 库 ， 将 应 用 于 更 广泛 的 领域 。 
21 世纪 是 大 数据 的 世纪 ， 而 关于 大 数据 的 故事 ， 才 刚刚 开始 。 


(本 音 编 译 者 : 刘 娟 ， 清 华 大 学 国际 传播 研究 中 心 助理 研究 员 ， 博 士 生 ) 
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„a @ Pare, 
大 数据 有 多 大 ? IDC 在 8806 年 估计 全 世界 产生 数据 量 为 0.18ZB( 1ZB=100 
万 PB )， 而 截至 2011 GX AFC AT TARE, SH 1.8ZB， 相 当 
于 全 世界 每 个 人 一 块 100 多 GB 的 硬盘 。 这 种 增长 还 在 加 速 ， 预 计 2015 年 将 
达到 近 8ZB ( Gantz et al., 2011 )。 
大 数据 的 一 个 明显 特征 是 数据 的 社会 化 ( Socialization of data )。 从 博客 论 
坛 到 游戏 社区 再 到 微 博 ， 从 互联 网 到 移动 互联 网 再 到 物 联网 ， 人 类 以 及 各 类 物 
理 实体 的 实时 联网 已 经 而 且 还 将 继续 产生 难以 估量 的 数据 。 
为 了 阐述 大 数据 如 何 创造 价值 ， 本 章 通 过 五 个 领域 : 医疗 与 健康 、 数 据 新 
闻 学 、 社 会 管理 、 经 济 管理 、 物 联网 ， 为 读者 展现 一 幅 浩瀚 的 大 数据 景观 。 五 
个 领域 对 大 数据 的 使 用 在 其 复杂 性 和 成 熟 程度 方面 有 所 不 同 ， 由 此 提供 了 不 尽 
相同 的 实践 经 验 。 它 们 也 代表 了 全 球 经 济 中 多 种 多 样 的 关键 环节 ， 包 括 全 球 流 
通 的 部 门 诸 如 制造 业 ， 以 及 非 贸 易 部 门 如 社会 管理 ， 以 及 产品 和 服务 的 组 合 。 


Di 医疗 与 健康 外 | || 


改革 现 有 的 医疗 制度 ， 削 减 医疗 成 本 不 断 上 升 的 增长 率 ， 同 时 还 要 维持 现 
有 的 优势 ， 这 是 全 球 各 个 国家 社会 和 经 济 共同 面临 的 关键 问题 。 麦 肯 锡 全 球 研 
究 所 的 报告 一 一 《大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 前 沿 》( Big data: The 
next frontier for innovation, competition, and productivity ) 详细 地 介绍 了 美国 在 
医疗 健康 领域 中 信息 化 和 大 数据 应 用 的 发 展 趋势 。 

医疗 是 美国 最 大 的 经 济 部 门 之 一 ， 医 疗 行业 占 美国 GDP 的 17%， 雇 用 了 
11% 的 美国 劳动 者 。 近 10 年 中 ,美国 医疗 开支 年 增长 率 为 历史 最 高 ,接近 5% 
( 扣除 物价 因素 )， 是 高 位 国债 的 重要 构成 部 分 。 日 益 老 龄 化 的 人 口 和 更 新 、 更 


= 
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贵 的 治疗 方法 将 会 扩大 这 个 趋势 。 目 前 ， 医 疗 系统 在 提高 运行 绩效 和 采用 科技 
辅助 过 程 方面 落后 于 其 他 许多 部 门 。 问 题 的 严重 程度 和 推动 变革 的 迫切 程度 号 
须 果断 地 制度 策略 ， 尽 快 开 始 提 高 生产 率 ， 并 削减 不 断 攀 升 的 成 本 (James et 
al., 2011 ), 

鉴于 此 ， 使 用 大 数据 库 作 为 工具 ， 将 会 辅助 产生 更 有 效 、 更 加 经 济 的 医疗 
政策 ， 更 好 的 产品 和 服务 ， 提 供 新 的 商业 模式 。 根 据 麦肯锡 的 预测 ， 在 医疗 领 
域 具备 所 需 的 I 和 数据 库 投资 、 分 析 能 力 、 隐 私 保护 以 及 适当 的 经 济 激励 机 
制 的 情况 下 ， 大 数据 的 使 用 将 在 10 年 内 让 美国 的 医疗 市 场 获得 每 年 3000 亿美 
元 的 新 价值 ， 其 中 2/3 以 全 国医 疗 开支 的 削减 形式 出 现 。 

医疗 系统 攀升 的 成 本 带 来 巨大 的 财政 压力 ， 这 促使 美国 国内 出 现 了 前 景 广 
阔 的 试点 工程 ， 使 用 大 数据 和 数据 分 析 管理 工具 来 获得 中 长 期 的 价值 。 类 似 这 
样 的 创新 项 目 中 ， 就 有 美国 的 退伍 军人 事务 部 CVA) 已 经 成 功 推出 的 数 个 医 
疗 信息 技术 和 远程 病人 监控 项 目 。VA 的 医疗 系统 普遍 在 如 下 几 个 方面 胜 过 私 
营 部 门 : 遵照 医生 建议 的 病 患 照 顾 过 程 ， 坚 持 临床 指导 ， 实 现 更 高 比率 的 循 症 
药物 疗法 。 这 些 成 绩 大 多 要 归功 于 VA 以 绩效 为 基础 的 责任 框架 ， 以 及 使 用 电 
子 病 历 实现 的 疾病 管理 方法 。 

位 于 加 州 的 综合 管理 医疗 联盟 凯 泽 集团 早期 就 将 临床 数据 和 费用 数据 相 
结合 ， 应 用 至 关 重 要 的 数据 库 ， 发 现 了 “万 络 ”的 副作用 ， 最 终 使 得 这 种 药物 
退出 市 场 。 

不 仅 在 美国 ， 欧 盟国 家 也 在 加 大 医疗 数据 的 收集 和 使 用 。 英 国 国家 卫生 
与 临床 优化 研究 所 ?率先 使 用 大 规模 的 临床 数据 研究 新 药 以 及 现 有 昂贵 的 治疗 
方法 的 临床 效果 。 该 机 构 提 供 适宜 的 费用 指导 ， 还 经 常 和 制药 及 医药 产业 协商 
价格 与 市 场 准 入 的 条 件 。 意 大 利 药物 局 收集 和 分 析 昂 贵 的 新 药 的 临床 数据 ， 这 
是 国家 的 成 本 效益 项 目的 一 部 分 。 卫 生 局 能 够 为 新 药 加 上 “有 条 件 的 报销 ”， 
然后 根据 它 的 临床 数据 研究 结果 重新 评估 价格 和 市 场 准 入 情况 (James et al., 
2011 ). 

根据 麦肯锡 的 研究 以 及 美国 医疗 市 场 的 经 验 ， 医 疗 数据 有 四 种 主要 来 源 ， 
每 一 种 都 为 某 一 部 分 人 群 所 有 。 在 此 领域 内 ， 数 据 的 碎片 程度 相当 高 。 这 四 个 
来 源 分 别 是: 临床 数据 、 付 款 人 活动 ( 索赔 ) 和 成 本 数据 、 制 药 和 医药 产品 的 
科研 数据 、 病 人 的 行为 和 情绪 数据 。 一 般 来 说 ， 医 疗 服务 提供 机 构 拥 有 广泛 


O 英国 国家 卫生 与 临床 优化 研究 所 (National Institute for Health and Clinical Excellence, NICE ) 是 英 

国 国家 医疗 服务 系统 (NHS ) 的 组 织 ， 设 在 伦敦 和 曼彻斯特 。NICE 成 立 于 1999 年 4 月 1 日 , 目标 
是 确保 每 个 英格兰 和 威尔士 人 平等 享有 NHS 医疗 的 机 会 。NICE 制定 指南 ， 设 定 质量 标准 ， 管 理 国 
家 数据 库 ， 为 NHS 、 当 地 权威 部 门 和 其 他 组 织 提供 指南 。 
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电子 化 的 财务 和 行政 数据 ， 包 括 账单 及 患 
者 基本 信息 。 但 数字 化 和 聚合 临床 数据 的 
电子 化 仍 处 于 初期 。 预 测 高 达 30% 的 美 
国 临 床 文本 /数字 数据 一 一 包括 病历 、 账 
单 、 化 验 和 手术 报告 的 一 一 还 没有 进行 数 
字 化 。 即 使 临床 数据 是 数字 形式 ， 它 们 也 
通常 为 个 人 所 有 , 没有 得 到 共享 。 事 实 上 ， 
大 部 分 临床 数据 都 是 视频 和 监控 动态 ， 是 
实时 数据 而 没有 储存 。 

美国 及 欧盟 在 临床 、 支 付 与 定价 、 研 究 与 开发 、 公 共 健 康 等 领域 中 已 经 消 
现 出 多 种 大 数据 技术 ， 能 够 利用 医疗 部 门 中 已 有 或 可 能 获得 的 海量 电子 信息 ， 
提高 医疗 系统 的 效率 和 效果 ， 比 如 费用 削减 、 更 高 的 效率 、 更 好 的 治疗 效果 ， 
以 及 生产 力 的 提高 。 这 些 方法 都 需要 对 大 数据 库 进 行 分 析 ， 这 些 数据 库 主 要 和 
医疗 研发 及 供应 相关 ， 而 不 是 关于 医疗 信息 技术 工具 ， 比 如 处 理 医 保 申 请 的 自 
动 化 操作 (James et al., 2011 )。 


健康 信息 学 


图 2-1 健康 信息 学 的 构成 5?: 医学 、 信 
息 科学 和 计算 机 科学 


和 2.1.1 KK 


在 临床 的 范畴 内 有 五 种 大 数据 工具 ， 它 们 主要 影响 医疗 服务 供应 者 、 支 付 
者 和 医药 制药 公司 提供 临床 治疗 的 方式 。 如 果 全 部 使 用 ， 这 五 种 工具 可 以 每 年 
将 美国 医疗 支出 减少 1650 亿美 元 ?”( James etal., 2011 )。 

1. 疗效 比较 研究 

结果 导向 的 疗效 比较 研究 ( 英文 缩写 为 CER )， 旨 在 通过 分 析 详 尽 的 患者 
和 治疗 结果 信息 ， 比 较 不 同方 案 的 效率 ， 从 而 决定 针对 特定 患者 的 最 优 治疗 方 
案 。 许 多 研究 显示 ， 不 同 的 医疗 机 构 、 地 域 和 患者 在 治疗 、 结 果 和 费用 方面 的 
差异 非常 大 。 分 析 包 括 患 者 特征 、 费 用 和 治疗 结果 的 大 数据 库 能 够 帮助 确定 最 
有 效 和 符合 成 本 效益 的 疗法 。 如 果 医 疗 系统 推行 疗效 比较 研究 ， 便 有 可 能 减少 
过 度 医疗 和 处 理 不 足 的 发 生 率 ， 这 两 者 都 会 致使 患者 状况 恶化 以 及 产生 更 高 昂 
的 长 期 治疗 费用 。 

在 全 球 范围 内 ， 类 似 英 国 国 家 卫生 与 临床 优化 研究 所 的 机 构 ， 如 德国 药物 
评估 局 (IQWIG )， 加 拿 大 的 统一 药物 评审 (Common Drug Review )， 以 及 澳 


D 资料 翻译 自 : 英国 医疗 信息 化 专家 委员 会 ，http://www.ukchip.org/?q=page/Professionalism-Health- 
Jnformatics。 


© 基数 是 2009 年 的 2.5 万 亿美 元 。 


23 


24 


大 数据 BIG DATA 


大 利 亚 的 药物 福利 计划 ， 都 开始 成 功 实行 CER 项 目 。 美 国 于 2009 年 通过 “ 美 
国 复 苏 与 再 投资 法 案 "， 首 次 开始 应 用 CER。 这 项 法 案 帮 助 建立 了 疗效 比较 研 
究 联 邦 协调 委员 会 ， 并 获得 4 亿美 元 的 拨款 。 为 了 发 挥 全 系统 的 效能 ， 还 需要 
解决 一 些 问 题 ， 比 如 收集 和 合并 全 面 且 一 致 性 的 临床 数据 集 ， 使 其 为 研究 者 可 
用 。 目 前 在 施行 CER 的 热潮 中 ， 仍 然 缺少 标准 和 交互 操作 性 ， 使 得 多 个 数据 
集 难以 合并 。 

2. 临床 决策 支持 系统 

第 二 项 技术 是 使 用 临床 决策 支持 系统 提高 手术 及 医嘱 录入 系统 的 效率 和 
质量 。 目 前 此 类 系统 可 以 分 析 医生 的 录入 并 将 其 和 医学 指导 相 比较 ， 以 便 为 可 
能 的 错误 ， 比 如 药物 不 良 反应 或 事故 发 出 警报 。 通 过 使 用 医嘱 录入 系统 ， 医 疗 
服务 提供 机 构 能 够 减少 不 良 反应 ， 降 低 错误 治疗 和 民事 诉讼 的 比率 ， 特 别 是 降 
低 医疗 事故 的 发 生 率 ,一 项 在 美国 主要 城市 的 儿科 危 症 监护 病房 中 的 研究 显示 ， 
临床 决策 支持 系统 在 两 个 月 时 间 内 就 将 药物 不 良 反 应 和 医疗 事故 减少 了 40%。 


有 效 的 电子 临床 决策 对 医护 人 员 提 
病历 输入 支持 系统 供 决 策 支 持 
图 2-2 ”电子 病历 系统 (Electronic Medical Record, EMR ) 


未 来 类 似 这 样 的 大 数据 系统 将 会 变 得 更 加 智能 ， 将 会 包含 (XE, CT, 
MRI) 图 像 分 析 和 识别 的 模块 ， 还 能 自动 挖掘 医学 文献 以 建立 一 个 医学 专业 技 
术 的 数据 库 ， 并 根据 患者 的 病历 向 医生 提出 治疗 方法 的 建议 。 此 外 ， 临 床 决策 
支持 系统 还 能 自动 处 理 和 帮助 医生 的 咨询 工作 ， 让 更 多 的 工作 量 流向 护理 人 员 
和 医师 助理 ， 提 升 患者 治疗 的 效率 。 

3. 医疗 数据 的 透明 度 

临床 大 数据 的 第 三 种 应 用 是 分 析 关 于 医疗 过 程 的 数据 ， 提 高 医疗 数据 透明 
度 。 这 既 能 为 医生 和 医疗 机 构 指出 提高 工作 水 平 的 可 能 性 ， 也 能 帮助 病人 挑选 
最 合适 的 治疗 方法 。 

医院 信息 系统 (Hospital Information System, HIS )， 是 增加 医疗 数据 透明 
度 的 一 项 有 效 工具 。 在 国际 学 术 界 ， 它 已 被 公认 为 是 新 兴 的 医疗 信息 学 的 重要 
分 支 。HIS 系统 的 有 效 运行 ， 将 提高 医院 各 项 工作 的 效率 和 质量 ， 促 进 医 学 科 
人 研 和 教学 ; 减轻 各 类 事务 性 工作 的 劳动 强度 ， 使 他 们 节省 出 更 多 精力 和 时 间 服 
务 病人 ; 改善 经 营 管理 ,堵塞 漏洞 ， 保 证 病人 和 医院 的 经 济 利益 ; 为 医院 创造 
经 济 效益 。 

通过 分 析 医 疗 机 构 的 操作 和 绩效 的 数据 集 ， 可 以 创建 进程 图 和 仪表 盘 ， 让 
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数据 透明 成 为 可 能 。 目 标 是 确认 和 分 析 临 床 过 程 中 差异 与 浪费 的 来 源 ， 让 过 程 
更 加 优化 ,记录 医疗 过 程 以 及 病人 在 医疗 机 构 中 的 “路 线 " 能 够 减少 错误 的 发 生 。 
仅仅 是 公布 费用 、 质 量 和 绩效 数据 通常 就 可 以 形成 竞争 ， 促 进 绩效 改善 。 这 些 
分 析 可 以 带 来 机 构 改 革 ， 将 会 精简 流程 ， 节 约 成 本 ， 更 有 效 地 配备 人 员 ， 提 高 
医疗 质量 ， 改 善 患者 体验 ， 减 少 医 疗 费用 。 医 疗 保险 和 医疗 补助 服务 中 心 正 在 
测试 “仪表 盘 "， 这 项 创新 将 会 实现 透明 政府 的 原则 、 促 进 公众 参与 以 及 合作 。 
疾 控 中 心 也 开始 使 用 交互 性 的 格式 公布 健康 数据 ， 提 高 性 能 以 便 处 理 数据 。 

公布 质量 和 绩效 数据 还 可 以 让 患者 了 解 医疗 费用 和 质量 的 差异 ( 目前 大 多 
仍 是 不 透明 的 )， 做 出 更 加 明智 的 就 医 选择 。 数 据 的 透明 和 适宜 的 报销 计划 将 
会 鼓励 患者 在 消费 时 更 理性 ， 这 反 过 来 促使 医疗 机 构 提 高 竞争 力 ， 最 终 提 高 整 
个 行业 的 表现 。 

4. 远程 患者 监测 

第 四 种 临床 大 数据 工具 是 通过 远程 监测 系统 收集 慢性 病 患者 的 数据 ， 分 析 
结果 以 判断 患者 是 否 遵 医嘱 ， 以 此 改善 用 药 和 治疗 方案 。 在 2010 年 ， 美 国 约 
有 1.5 亿 人 患 有 慢性 疾病 ， 比 如 糖尿 病 、 充 血性 心力 衰竭 和 高 血压 ， 他 们 的 治 
疗 费 用 占 到 当年 全 国医 疗 费 用 的 80% (James et al., 2011 )。 远 程 患者 监测 系统 
对 于 治疗 这 些 病人 非常 有 效 。 该 系统 包括 检测 心脏 的 设备 ， 可 将 血糖 含量 信息 
传递 给 看 护 者 ， 甚 至 还 包括 “药片 芯片 ” 当 病 人 服用 药片 就 发 出 报告 的 药 
物 ， 几 乎 实时 地 将 数据 传 给 医疗 记录 数据 库 。 一 般 来 说 ， 远 程 患者 监测 系统 的 
数据 可 以 减少 患者 住院 时 间 ， 减少 急诊 ， 增 进 家 庭 陪护 的 匹配 度 ， 降 低 长 期 并 
发 症 。 例 如 : 向 医生 报告 一 位 充血 性 心力 衰竭 患者 因为 水 注 留 而 增加 体重 ， 便 
能 够 预防 紧急 住院 。 

5. 患者 状况 的 高 级 分 析 工 具 

第 五 种 工具 是 应 用 高 级 分 析 工 具 观 察 患者 情况 ( 比如 分 段 和 预测 模型 )， 
确定 那些 能 够 从 疾病 预防 和 改变 生活 习惯 中 获 益 的 人 群 。 这 些 方法 能 够 找 出 某 
种 疾病 的 高 风险 人 群 ， 他 们 将 会 得 益 于 预防 性 医疗 计划 ; 还 能 通过 选择 将 已 有 
症状 的 患者 加 入 疾病 管理 项 目 ， 更 好 地 满足 他 们 的 需求 。 患 者 数据 还 能 提升 衡 
量 这 些 项 目 效果 的 能 力 。 


和 2.1.2 ”支付 与 定价 


这 个 类 别 中 的 两 种 工具 都 包含 医疗 支付 和 定价 。 支 付 和 定价 有 潜力 创 
造 5000 万 美元 的 价值 ， 其 中 半数 来 自 于 节省 医疗 开支 的 费用 (James et al., 
2011 )。 
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1. 自动 化 系统 

第 一 种 工具 是 使 用 自动 化 系统 ( 以 神经 网 络 为 例 的 机 器 学 习 方 法 ) 识别 欺 
诈 ， 并 核实 支付 者 补贴 申请 的 一 致 性 和 准确 性 。 根 据 美国 的 支付 者 行业 预计 ， 
每 年 补贴 申请 中 的 2%~4% 是 虚假 或 是 不 正当 的 ; 官方 预计 这 笔 费用 高 达 医 保 
和 医疗 救助 的 10%。 建 立 一 个 全 面 且 一 致 的 数据 库 ， 使 用 预算 法 来 处 理 和 检 
查 申请 的 准确 ， 检 测 可 能 性 较 高 的 诈骗 、 过 失 或 错误 ， 无 论 是 实时 的 还 是 事后 
完成 ， 都 能 够 节省 开支 。 如 果实 时 操作 ， 这 些 自动 化 系统 能 够 在 全 额 付款 之 前 
找 出 超额 偿付 ， 收 回 大 笔 损失 。 

2. 以 卫生 经 济 学 和 效果 研究 与 绩效 为 基础 的 定价 方案 

第 三 种 工具 是 基于 真实 的 患者 治疗 效果 数据 ,使 用 卫生 经 济 学 和 效果 研究 
与 基于 绩效 的 定价 方案 ， 实 现 公平 的 经 济 补偿 一 一 从 支付 给 制药 公司 的 药 价 到 
支付 者 付 给 医疗 机 构 的 偿付 。 

在 药物 定价 方面 ， 药 厂 将 会 共同 承担 治疗 风险 。 对 于 支付 者 ， 一 项 重要 的 
福利 是 新 药 的 成 本 和 风险 分 担 计 划 ， 这 能 控制 或 限制 相当 大 一 部 分 医疗 支付 。 
同时 ， 对 医疗 支付 的 限制 也 能 使 得 制药 公司 获得 更 好 的 市 场 准 入 。 它 们 还 能 够 
从 更 有 效 的 用 药方 案 ( 通过 创新 的 定价 系统 而 实现 ) 中 获得 更 高 的 利润 。 患 者 
将 能 基于 价格 的 公式 集 ， 以 合理 的 价格 购 得 创新 药物 ， 获 得 更 好 的 治疗 效果 。 
为 了 让 医疗 系统 实现 最 大 价值 ， 美 国 需要 允许 支付 者 的 集体 价格 谈判 。 

以 卫生 经 济 学 和 效果 研究 为 基础 的 药 三 定价 试点 计划 已 开始 施行 ， 主 要 
在 欧洲 。 比 如 ， 诺 华 公 司 和 德国 健康 保险 公司 达成 一 致 ， 承 担 雷 珠 单 抗 注 射 液 
( Lucentis ) 每 年 超出 4.68 亿美 元 的 支出 ， 该 药 用 于 治疗 与 年 龄 相关 的 黄斑 变 
性 (James et al., 2011 )。 


$21.3 ”研究 与 开发 


在 制药 的 子 领域 ， 五 种 大 数据 工具 可 以 提高 研发 的 生产 力 。 它 们 可 以 共同 
创造 高 于 1000 亿美 元 的 价值 ， 其 中 1/4 形式 为 更 低 的 国家 医疗 费用 (James et 
al., 2011 )。 

1. 预测 模型 

第 一 种 工具 是 研究 数据 聚合 ， 以 便 制 药 公 司 更 好 地 为 新 药 预 测 性 建 模 ， 决 
定 如 何 最 有 效率 和 符合 成 本 效益 地 配置 研发 资源 。“ 理 性 药品 设计 ”意味 着 基 
于 对 临床 前 期 或 早期 临床 数据 和 研发 价值 链 进行 模拟 与 建 模 ， 从 而 尽 可 能 迅速 
地 预测 临床 效果 。 评 价 因素 包括 : 产品 安全 性 、 疗 效 、 可 能 的 副作用 、 整 体 试 
验 结果 。 这 个 预测 模型 可 以 在 研发 周期 早期 中 止 对 次 优 混合 物 的 研发 和 临床 试 
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验 ， 节 约 成 本 。 

这 种 工具 对 于 医药 行业 的 益处 包括 : 更 低 的 研发 成 本 ， 更 精益 、 更 快速 、 
更 有 针对 性 的 研发 过 程 。 它 可 以 缩短 药物 问世 的 时 间 ， 创 造 出 目标 性 更 强 的 产 
品 ， 扩 大 潜在 市 场 ， 提 高 治疗 成 功率 。 预 测 模型 能 够 将 大 约 为 13 年 的 新 药 研 
发 问世 时 间 减 少 3~5 年 。 

2. 统计 工具 和 算法 式 改善 临床 试验 设计 

使 用 统计 工具 和 算法 式 可 以 在 研发 过 程 中 的 临床 阶段 改善 临床 试验 设计 
和 招募 患者 的 针对 性 ,这 个 工具 包括 挖掘 患者 数据 一 一 评估 患者 招募 的 可 行 性 、 
推荐 更 有 效 的 设计 、 推 荐 有 大 量 可 选 患 者 和 优良 记录 的 试验 地 点 ， 以 加 快 临床 
试验 的 过 程 。 可 以 使 用 的 技术 有 试验 场景 模拟 ， 以 及 优化 标签 型 号 ( 适用 于 某 
种 药物 的 适应 症 范围 )， 这 两 者 都 可 以 增加 试验 的 成 功率 。 算 法 式 将 研发 和 试 
验 数据 与 商业 模型 、 历 史 监管 数据 相 结合 ， 找 出 针对 试验 的 目标 患者 群体 的 规 
模 和 特征 之 间 的 最 优 平衡 ， 以 及 监管 部 门 对 新 药 批准 的 可 能 性 。 分 析 还 能 改善 
选择 研究 员 的 过 程 一 一 目标 是 那些 经 过 证 实 有 研究 记录 的 人 。 

3. 分 析 临 床 试验 数据 

第 三 种 工具 是 分 析 临 床 试验 数据 和 病人 档案 ,识别 出 药物 的 新 用 途 并 发 现 
不 良 反 应 。 在 对 大 规模 效果 数据 库 进行 统计 分 析 、 寻 找 出 药物 新 用 途 的 迹象 之 
后 ， 药 物 的 重新 定位 或 是 新 用 途 的 营销 成 为 可 能 。 分 析 实 时 的 不 良 反 应 病例 报 
告 让 药物 安全 监视 成 为 可 能 ， 使 人 们 可 以 观察 到 常见 临床 试验 中 罕见 的 安全 信 
号 ， 识别 出 临床 试验 上 暗示 出 的 但 却 没 有 足够 统计 解释 力 的 事件 。 

这 些 分 析 项 目 在 当下 情境 中 格外 重要 ，2008 年 的 年 度 药物 召回 创 历 史 新 
高 ， 而 整体 新 药 批 准 数量 却 在 下 降 。 药 物 召 回 通常 对 药 企 本 身 有 很 大 伤害 。 
2004 年 撤销 “万 络 ”( 一 种 抗 炎症 药物 ) 的 销售 ， 导 致 默 克 公司 耗费 700 万 美 
元 用 于 诉讼 和 索赔 ， 其 股东 利益 在 短 短 几 天 之 内 下 降 了 33%。 

4. 个 性 化 药物 

对 新 兴 大 数据 库 进 行 分 析 ， 是 另 一 个 很 有 前 景 、 将 能 在 研发 领域 创造 新 
价值 的 大 数据 创新 ( 比如 基因 组 数据 )， 将 会 提高 生产 力 ， 研 发 出 个 性 化 药物 。 
这 个 工具 的 目的 是 研究 基因 差异 之 间 的 关系 、 特 殊 疾 病 的 易 染 病 体 质 、 特 殊 的 
药物 反应 ， 然 后 解释 说 明 在 药物 研发 过 程 中 个 体 差 异 的 原因 。 

个 性 化 药物 有 和 希望 在 三 个 主要 领域 增进 医疗 水 平 : 在 患者 出 现 病症 之 前 进 
行 早期 检测 和 诊断 ; 提供 更 有 效 的 治疗 ， 因 为 可 以 根据 分 子 标记 匹配 细 分 有 相 
同 诊断 结果 的 患者 ( 即 有 同样 疾病 的 患者 通常 对 同样 疗法 有 不 同 反 应 ， 这 部 分 
归 因 于 基因 差异 ) ; 根据 患者 的 分 子 档案 调整 药物 剂量 ,使 副作用 最 小 化 ， 使 
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疗效 最 大 化 。 

个 性 化 药物 正 处 于 发 展 初期 。 尽 管 如 此 ， 它 已 经 显现 出 惊人 的 初期 成 效 ， 
特别 是 胎儿 基因 测试 的 乳腺 癌 早 期 检测 ,以 及 白血病 和 结肠 癌 治 疗 的 药剂 测试 。 
据 预 测 , 减少 那些 对 个 体 患 者 没有 疗效 的 药物 处 方 可 以 节省 30%~70% 的 开支 。 
同样 ， 鉴 于 肺癌 早期 手术 费用 大 约 是 晚期 手术 的 一 半 ， 早 期 检测 和 治疗 也 可 以 
极 大 地 减轻 肺癌 治疗 对 医疗 系统 的 负担 。 

5. 分 析 疾 病 模式 

与 研发 相关 的 大 数据 价值 创造 工具 能 够 分 析 疾 病 模式 和 趋势 ， 为 未 来 的 需 
求 和 成 本 建 模 ， 做 出 研发 投资 战略 规划 。 这 样 的 分 析 能 够 帮助 药 企 最 优化 研发 
的 侧重 点 ， 以 此 分 配 资源 、 设 备 和 人 力 。 


$2.14 ”公共 健康 


大 数据 的 应 用 能 够 改善 公共 健康 监视 和 反馈 。 通 过 使 用 全 国 范围 的 患者 和 
治疗 数据 库 , 负责 公共 健康 的 政府 部 门 能 够 保证 快速 、 协 调 地 发 现 传染 性 疾病 ， 
全 面 监视 疾病 暴发 ， 制 订 完 整 的 疾病 监测 和 反应 计划 。 这 项 应 用 将 会 带 来 数 不 
胜 数 的 益处 ， 包 括 减 少 医疗 支出 ， 降 低 感染 事故 ， 提 高 实验 室 能 力 ， 更 好 应 对 
新 发 疾病 与 疾病 暴发 。 

公共 健康 的 研究 者 越 来 越 多 地 采用 地 理 信 息 系统 ( GIS ) 来 分 析 人 们 所 处 
的 环境 ， 以 及 这 些 环境 如 何 影响 个 人 健康 。 比 如 ，GIS 中 的 道路 网 络 数据 可 以 
提供 关于 某 区 域 的 交通 拥堵 情况 、 空 气 污染 程度 、 城 市 化 程度 ， 并 依据 此 分 析 
该 地 居民 的 健康 程度 ,比如 心肺 系统 功能 ,心血 管 疾 病 和 儿童 肿瘤 等 ( Frizzelle， 
2009 )。 有 了 准确 和 即时 的 公共 健康 报告 ， 公 众 也 会 更 加 注意 对 和 感染 性 疾病 
相关 的 健康 风险 ， 反 过 来 降低 传染 的 可 能 性 。 加 在 一 起 ， 这 些 因素 可 以 创造 更 
优质 的 生活 。 


B22 数据 新 闻 学 | 和 | | | 


数据 应 用 已 经 渗透 到 社会 各 个 行业 ， 这 将 对 新 闻 学 带 来 哪些 影响 ? 传统 的 
新 闻 报 道 手法 一 一 采访 目击 者 、 讲 述 个 人 化 的 故事 ， 在 越 来 越 趋向 基于 数据 定 
量 分 析 的 时 代 ， 将 会 发 生 哪 些 变化 ? 

在 过 去 的 几 年 里 ， 全 球 一 些 具 有 创新 精神 的 新 闻 媒 体 已 经 开始 尝试 利用 数 
据 更 好 地 报道 新 闻 ， 帮 助 读者 理解 正在 发 生 的 新 闻 事 件 ， 以 及 这 些 事 件 对 人 们 
生活 的 影响 ,这 些 尝 试 已 经 或 多 或 少 地 改变 了 传统 的 新 闻 生 产 过 程 和 呈现 方式 ， 
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并 将 不 可 避免 地 对 新 闻 学 带 来 深远 的 影响 。 

欧洲 新 闻 学 中 心 (European Journalism Centre ) 和 开放 知识 基金 会 (Open 
Knowledge Foundation ) 共同 开发 了 一 本 《数据 新 闻 学 手册 》( The Data 
Journalism Handbook )， 供 全 球 用 户 免费 下 载 和 使 用 ， 旨 在 推动 数据 新 闻 学 的 
发 展 。 

《数据 新 闻 学 手册 》 是 针对 数据 新 闻 这 一 新 兴 领 域 出 版 的 一 本 免费 开源 的 
工具 书 。 这 本 书 最 早 开始 于 2011 年 设 于 伦敦 的 Mozilla Festival 48 小 时 工作 坊 ， 
尔后 由 来 自 澳大利亚 广播 集团 、 英 国 广播 公司 《芝加哥 论坛 报 》、 德 国之 声 《 卫 
报 》《 金 融 时 报 》《 赫尔辛基 日 报 》《 纽 约 时 报 》、 美 国 在 线 新 闻 K《 华盛顿 邮 报 》、 
《芝加哥 论坛 报 》《 志 界 之 路 报 》、 威尔士 在 线 等 诸多 数据 新 闻 领域 的 倡导 者 与 
资深 专家 以 网 络 协作 方式 编写 而 成 。 该 书目 前 仅 有 电子 版 ， 各 个 章节 由 不 同 的 
作者 完成 ， 网 址 为 : http://datajournalismhandbook.org/1.0/en/。 

数据 新 闻 学 是 新 闻 学 的 新 领域 ,这 种 新 的 新 闻 生 产 方式 已 经 被 英国 广播 公 
=) (BBC )、《 卫 报 》《 纽 约 时 报 》《 洛 杉 矶 时 报 》 等 国际 主流 媒体 广泛 使 用 。 
欧洲 新 闻 中 心 、Google 等 机 构 也 从 2011 年 开始 ， 举 办 了 各 种 有 关 数 据 新 闻 的 
全 球 性 学 术 会 议 与 竞赛 活动 。 

陶 氏 基金 会 ( Tow Foundation ) 与 奈 特 基 金 会 ( John S. and James L. Knight 
Foundation ) 于 2012 年 4 月 30 日 宣布 将 提供 20 亿美 元 来 资助 哥伦比亚 大 学 新 
闻 学 院 的 数据 新 闻 学 研究 项 目 ， 这 项 研究 专注 于 数据 新 闻 学 的 三 个 方面 : 

影响 : 衡量 新 的 实践 及 工具 如 何 影响 受众 及 媒体 资源 ; 

新 闻 的 透明 度 : 关注 公共 数据 一 一 哪些 是 可 用 的 ， 哪 些 不 是 ; 哪些 是 有 用 
并 与 人 们 的 生活 息息相关 的 ; 

数据 形象 化 : 衡量 哪 种 形式 在 传达 信息 与 吸引 读者 方面 最 有 效 。 

哥伦比亚 大 学 陶 氏 数字 新 闻 中 心 主管 Emily Bell ( 2012 ) 指出 :“ 大 部 分 媒 
体 仍 不 了 解数 据 科 学 的 发 展 前 沿 ， 以 及 信息 传播 对 信息 使 用 者 的 影响 。 我 们 旨 
在 倡导 那些 对 新 闻 学 充满 热情 并 具有 相关 知识 的 人 才 对 数据 新 闻 学 开展 研究 。 
这 不 仅 有 利于 解读 大 数据 这 一 新 领域 ， 还 能 为 新 闻 学 在 这 个 复杂 多 变 的 领域 里 
提供 指导 。 这 项 研究 的 目标 是 对 新 闻 业 和 新 闻 学 产生 广泛 的 、 直 接 的 影响 。 

在 中 国 ， 数 据 新 闻 的 发 展 方兴未艾 。 目 前 一 些 新 闻 传 播 院 校 已 经 开设 相关 
课程 ， 业 界 也 有 网 易 数 读 、 政 见 CNPolitics 等 ， 还 有 一 些 平面 媒体 、 商 业 机 
构 与 个 人 ， 都 在 对 数据 新 闻 进 行 探索 与 尝试 。 


@ http://enpolitics.org. 
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$2.21 什么 是 数据 新 闻 学 


数据 新 闻 学 (Data journalism ) 或 称 数 据 驱 动 的 新 闻 学 (Data Driven 
journalism )， 被 认为 是 计算 传播 学 的 一 个 具体 应 用 。 通 过 挖掘 和 展示 数据 背后 
的 关联 与 模式 ， 运 用 丰富 的 、 具 有 互动 性 的 可 视 化 手段 ， 数 据 新 闻 学 成 为 新 闻 
学 的 新 疆域 和 应 用 范例 ， 并 作为 一 门 新 的 新 闻 分 支 进 入 主流 媒体 。 比 如 ， 在 猪 
流感 疫情 暴发 时 ， 每 天 都 有 从 各 地 传 来 的 最 新 数据 ,《 卫 报 》 网 站 的 数据 博客 
( Data Blog ) 设 计 了 一 幅 猪 流感 疫情 互动 地 图 ， 展 示 世 界 各 国 的 疫情 进展 。 

所 谓 的 数据 新 闻 学 ， 简 单 来 说 就 是 用 数据 报道 新 闻 ， 它 为 记者 将 传统 的 新 
闻 嗅 觉 与 运用 规模 庞大 的 数据 信息 报道 新 闻 创造 了 可 能 。 

作为 精确 新 闻 学 的 进一步 延伸 ， 数 据 新 闻 学 使 新 闻 生 产 过 程 更 为 精细 化 ， 
它 对 新 闻 工 作者 的 技能 要 求 除 传统 的 文字 写作 、 音 视频 制作 外 ， 还 包括 社 科研 
究 方法 ， 计 算 机 数据 抓 取 、 处 理 、 可 视 化 ,平面 /交互 设计 ， 计 算 机 编程 等 多 
个 领域 。 

数据 新 闻 学 是 在 多 学 科 的 技术 手段 下 ， 应 用 丰富 的 、 交 互 性 的 可 视 化 效果 
展示 新 闻 事 实 ， 把 数据 与 社会 、 数 据 与 个 人 之 间 的 复杂 关系 用 可 视 化 手段 向 公 
众 展示 出 来 , 以 客观 、 易 于 理解 的 报道 方式 激发 公众 对 公共 议题 的 关注 与 参与 。 

任职 于 斯 坦 福 大 学 的 Geoff McGhee 教授 是 一 位 以 多 媒体 和 信息 图 标 为 专 
长 的 记者 ，2009 一 2010 年 ， 他 在 约 输 ， 奈 特 新 闻 奖 学 金 的 支持 下 开始 研究 数 
据 可 视 化 。 他 认为 ， 现 在 越 来 越 多 的 新 闻 和 数据 有 关 ， 媒 体 的 责任 ， 是 如 何 向 
公众 解释 复杂 难 懂 的 数据 一 一 既 给 予 足够 的 信息 ， 又 不 至 于 危 言 管 听 。 

McGhee (2012 ) 制作 了 一 则 数据 新 闻 学 的 教学 视频 一 一 《数据 时 代 的 新 
闻 学 》 对 数据 新 闻 做 出 如 下 描述 : 

e 数据 的 爆炸 式 增长 使 得 我 们 需要 工具 来 进行 分 析 。 

o 可视化 方面 的 专家 正在 开发 工具 帮助 普通 人 更 好 地 理解 数据 。 

e 记者 们 则 努力 应 对 如 何 应 用 数据 使 新 闻 报 道 更 加 有 说 服 力 。 

© 有 经 验 的 数据 图 表 设 计 师 能 够 把 数据 引入 新 闻 学 ， 但 他 们 依然 在 论证 
数据 对 于 概念 诠释 的 有 效 性 。 
在 一 个 连 线 世界 中 ， 数 据 越 来 越 成 为 个 人 表达 的 载体 。 
e 数据 将 会 实时 推陈出新 ， 极 大 地 挑战 着 我 们 理解 、 分 析 和 展示 数据 的 

能 力 。 
e 创建 在 线 可 视 化 的 技术 正在 转变 ， 而 新 工具 的 出 现 将 会 使 这 个 过 程 更 
加 容易 。 

e 数据 分 析 的 重要 性 不 亚 于 视觉 展示 , 现 有 工具 可 以 帮助 实现 这 个 过 程 。 
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[2.2.2 ”数据 新 闻 学 的 意义 


当下 ， 新 闻 故 事 不 断 涌现 ， 它 们 来 自 众 多 信 源 : 目击 者 以 及 博客 ,发 生 的 
事件 在 一 个 浩如烟海 的 社会 关系 网 中 被 过 滤 、 评 级 、 评 论 ， 更 多 则 是 被 遗忘 。 

因此 ,， 收集、 过滤 并 将 信息 可 视 化 的 重要 性 日 益 凸 显 。 人 际 网 络 、 人 一 物 
网 络 之 中 使 用 的 语言 就 是 数据 ， 那 些 在 单个 事例 中 无 关 紧要 的 微量 信息 ， 从 全 
局 角度 看 却 有 着 非凡 的 重要 性 。 现 如 今 ， 一 群 具有 开创 精神 的 记者 已 经 开始 展 
示 如 何 利用 数据 更 好 地 理解 我 们 当下 所 处 世界 中 发 生 的 事情 ， 以 及 这 些 事件 对 
我 们 生活 的 影响 。 

《数据 新 闻 学 手册 》 关 于 数据 新 闻 的 定义 这 样 写 道 ， 数 据 新 闻 与 其 他 类 型 
的 新 闻 区 别 在 何 处 ? 或 许 在 于 将 传统 的 新 闻 敏 感 和 使 用 数字 信息 讲述 一 则 好 故 
事 的 能 力 相 结合 而 带 来 新 的 可 能 性 。 这 些 可 能 性 会 出 现在 新 闻 报 道 的 任何 一 个 
阶段 : 使 用 电脑 程序 自动 处 理 信息 收集 和 组 合 的 过 程 ， 这 些 信息 来 自 政府 、 公 
安 局 和 其 他 公民 机 构 ( Bradshaw, 2011 )。 

数据 新 闻 能 够 帮助 记者 使 用 数据 图 表 讲 述 一 个 错综复杂 的 故事 。 比 如 ， 
Hans Rosling "使 用 Gapminder 软件 将 世界 贫困 进行 可 视 化 处 理 ， 吸 引 了 来 自 全 
世界 的 关注 ; David McCandless ® 广 受 欢迎 的 大 量 数据 提取 一 一 比如 政府 开支 
的 背景 资料 ， 或 是 冰岛 火山 造成 和 阻拦 的 污染 物 一 一 显示 出 明确 而 清晰 的 设计 
的 重要 性 。 

数据 新 闻 还 可 以 帮助 解释 新 闻 事件 和 个 人 之 间 的 关联 ， 比 如 BBC 和 《人 金 
融 时 报 》 定 期 制作 关于 财政 预算 的 互动 性 报道 ( 观众 可 以 发 现 预 算 对 于 自身 的 
影响 )。 它 还 可 以 推动 新 闻 采 访 的 过 程 本 身 ， 如 同 《 卫 报 》 成 功 使 用 数据 博客 
分 享 数 据 、 背 景 和 议题 。 

数据 可 以 成 为 数据 新 闻 的 信 源 ， 或 是 讲述 新 闻 故 事 所 使 用 的 工具 ， 也 可 以 
两 者 兼 得 。 和 任何 其 他 信 源 一 样 ， 数 据 应 该 接受 怀疑 和 质疑 ; 我 们 应 该 意识 到 
它 如 何 塑造 并 限制 利用 数据 生产 出 的 新 闻 报道 ， 正 和 任何 其 他 工具 一 样 。 

《数据 新 闻 学 手册 》 的 作者 们 认为 ,通过 数据 的 使 用 ,记者 工作 的 重点 从 “第 
一 个 报道 者 ”转化 成 为 对 特定 事件 的 影响 的 曾 释 者 。 话 题 的 范围 宽 且 远 : 下 一 


® 汉 斯 * 罗斯 林 (Hans Rosling, 1948 年 7 月 27 日 ) 是 卡 罗 琳 学 院 的 国际 卫生 学 教授 ， 并 担任 
Gapminder 基金 会 董事 长 ， 该 基金 会 开发 了 Trendalyzer 软件 ， 具 有 把 统计 数据 图 形 化 的 特点 , 方便 
人 们 理解 数据 资料 。 

© KE- 麦克 坎 德 雷 斯 ( David McCandless) 曾 为 《英国 卫 报 入 《 连 线 入 《独立 报 》 等 刊物 扎 稿 ， 擅 
长 以 简洁 精美 的 图 像 展现 复杂 、 抽 象 或 分 散 的 资讯 ， 并 将 不 同 的 数据 组 合 ， 展 现 其 中 的 联系 和 模式 。 
大 卫 认为 ， 数 据 可 视 化 不 仅 是 在 信息 丛林 中 找到 方向 的 最 好 方法 ， 还 能 帮助 人 们 发 现 全 新 的 视角 。 他 
的 新 作 《信息 是 美丽 的 》( zormartion is beautiful) 以 其 擅长 的 可 视 化 数据 描绘 了 当今 世界 的 各 个 方面 。 


at 
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次 正在 酝酿 的 金融 危机 ,我们 使 用 产品 背后 的 经 济 学 ， 资 金 的 滥用 和 政治 决策 
失误 ， 一 些 抽象 的 社会 问题 ， 比 如 失业 如 何 影响 公众 一 一 基于 他 们 的 年 龄 、 性 
别 、 教 育 水 平 。 使 用 数据 能 够 将 抽象 概念 转化 为 普通 人 可 以 理解 并 且 会 涉及 的 
事物 。 记 者 们 还 可 以 分 析 复 杂 局 面 如 骚乱 和 政治 辩论 中 的 动态 关系 ， 显 示 其 中 
的 廖 论 ， 帮 助人 们 寻找 复杂 问题 的 解决 方案 (Lorenz, 2011 )。 

此 外 ， 深 入 的 数据 新 闻 提 供 更 深刻 的 观点 。 如 今 ， 编 辑 室 数量 削减 ， 大 多 
数 记 者 希望 改行 进入 公关 行业 。 数 据 记 者 或 是 数据 科学 家 已 经 成 为 相当 抢手 的 
员工 一 一 不 只 在 媒体 行业 。 全 世界 的 公司 和 机 构 都 在 寻找 “意义 制造 者 "， 即 
那些 掌握 挖掘 数据 、 将 其 转换 为 有 形 信息 的 专家 。 

数据 大 有 和 希望， 这 激发 了 编辑 室 的 兴趣 ， 促 使 他 们 寻找 新 型 的 记者 。 对 于 
自由 撰 稿 人 来 说 ， 熟 练 的 数据 操作 同样 提供 了 通 往 新 职位 和 稳定 收入 的 道路 。 
不 妨 这 样 思考 : 与 其 雇用 记者 用 低 价 值 内 容 迅 速 填充 版 面 ， 不 如 使 用 数据 创造 
出 对 交互 式 内 容 的 需求 ， 而 实现 后 者 的 唯一 渠道 是 花费 一 整个 星期 研究 一 个 问 
题 。 这 在 媒体 行业 中 的 许多 领域 都 广 受 欢 迎 。 


和 有 2.2.3 ”数据 新 闻 学 的 功能 


斯 坦 福 大 学 Geo 企 教授 (2009) 曾 长 期 担任 《纽约 时 报 》 等 媒体 记者 ， 他 
于 2009 一 2010 年 间 开 始 研 究 数据 新 闻 。 他 指出 : 现在 的 新 闻 越 来 越 多 的 和 数 
据 有 关 ， 媒 体 的 责任 是 如 何 向 公众 解释 复杂 难 懂 的 数据 。 数 据 的 爆炸 式 增长 使 
我 们 需要 工具 来 进行 分 析 ， 数 据 可 视 化 专家 正在 开发 工具 帮助 我 们 更 好 地 理解 
和 使 用 数据 ， 记 者 的 工作 是 运用 数据 使 新 闻 报道 更 加 有 说 服 力 。 

1. 讲 故事 的 新 工具 和 新 方法 

数据 新 闻 最 重要 的 一 项 功能 是 使 用 数据 可 视 化 软件 ， 通 过 统计 大 量 的 数 
据 ， 帮 助 记者 使 用 数据 图 表 讲 述 错综复杂 的 故事 ， 而 这 种 讲 故 事 的 方式 必须 依 
赖 于 对 大 数据 的 分 析 和 可 视 化 处 理 。 由 于 数据 量 巨 大 ， 按 照 传统 的 新 闻 生 产 方 
式 是 几乎 不 可 能 实现 的 。 数 据 新 闻 最 佳 的 阅读 载体 是 交互 性 强 的 电子 媒介 ( 例 
如 : 接 入 互联 网 的 电脑 、 手 机 终端 等 ) 而 非 传统 的 平面 媒介 。 

例如 ，Gapminder 基金 会 创始 人 汉 斯 " 罗斯 林 (Hans Rosling ) 教授 等 开 
发 的 数据 可 视 化 软件 Gapminder 在 公共 卫生 、 环 境 、 公 共 安 全 等 报道 领域 的 
应 用 十 分 广泛 。 以 艾滋 病 报道 为 例 ，Gapminder 基金 会 使 用 该 软件 对 2007 一 
2009 年 世界 各 国人 均 收 入 与 艾滋 病 (HIV ) 感染 率 进行 了 统计 分 析 ， 如 图 2-3 
所 示 : 
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图 2-3 pe 


在 图 2-3 中 ， 横 坐标 表示 同等 购买 力 下 的 人 均 收 入 ( 单位 : 美元 /年 )， 纵 
坐标 表示 艾滋 病 (HIV ) 感染 率 (15~49 岁 成 人 感染 百分比 )， 图 表 主 体 中 用 
气泡 代表 某 个 国家 ， 气 泡 的 面积 大 小 表示 艾滋 病 感 染 者 存活 人 数 的 多 少 。 

通过 这 幅 图 可 以 让 读者 一 目 了 然 地 认识 到 艾滋 病 感染 率 与 国民 人 均 收 入 
之 间 的 线性 关系 : 从 大 体 趋 势 上 来 看 ， 随 着 人 均 收入 的 增加 ， 艾 滋 病 的 感染 率 
也 随 之 降低 。 读 者 如 果 通 过 电脑 、 手 机 等 终端 阅读 这 条 新 闻 ， 还 可 通过 交互 功 
能 了 解 更 多 的 信息 。 大 量 庞杂 的 数据 、 变 量 之 间 的 复杂 关系 ， 很 难 依靠 传统 的 
报道 手法 来 讲述 .大 数据 的 应 用 与 呈现 在 这 则 案例 中 已 经 不 仅仅 是 信 源 的 角色 ， 
更 多 的 是 承担 讲 故事 的 工具 和 方法 。 

2. 解释 宏大 新 闻 事 件 与 个 人 的 关联 

数据 新 闻 还 可 以 帮助 记者 解释 宏大 背景 下 的 新 闻 事件 和 个 人 之 间 的 关联 ， 
新 闻 学 对 于 报道 公共 事务 的 要 求 ， 是 能 够 通过 记者 的 报道 ， 帮 助 读 者 认识 到 一 
项 公共 政策 的 实施 或 修订 对 个 人 造成 的 影响 。 数 据 新 闻 让 读者 们 在 阅读 报道 后 
对 自己 的 生活 提出 问题 ， 诸 如 : 我 们 的 家 人 是 否 安全 ? 我 们 的 孩子 接受 的 教育 
是 否 合适 ?总 之 ,数据 新 闻 的 工作 是 让 读者 能 在 数据 和 新 闻 事 件 中 找到 属于 自 
己 的 故事 。 


D 资料 来 源 : http://www.gapminder.org/downloads/gapminder-hiv-chart-2009/。 
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例如 : 英国 广播 公司 (BBC ) 和 毕马威 会 计 师 事务 所 联合 制作 的 《预算 
计算 器 : 2012 年 的 财政 预算 将 如 何 影响 你 ? 》( Budget calculator: How will the 
Budget 2012 affect you? ) 能 够 帮助 读者 理解 新 的 财政 预算 ( 税收 计划 ) 对 个 人 
生活 带 来 的 影响 ， 用 户 只 需要 在 界面 上 输入 一 些 个 人 信息 (例如: 每 周 购买 多 
少 啤酒 、 多 少 包 和 香烟、 家 里 有 几 辆 汽车 、 月 收入 多 少 等 )， 它 就 能 够 自动 计算 
出 你 需要 为 新 的 政府 财政 预算 增加 支付 多 少 税 , 你 的 生活 会 变 得 更 好 还 是 更 糟 。 
如 图 2-4 所 示 。 


Budget calculator: How will the Budget 
2012 affect you? 


How much better or worse off will you be in the coming tax year tollowing the Budget? 


Use our Budget calculator, developed by accounting fm KPMG LLP, to find out how the measures 


being brought in next month will affect you. 
9 
Alcohol & 
1 ooo 7 PA PS income fA rowa 
Estimate how much beer. wine. spirits and cigarettes you would consume in a normal week. 


Alcohol & cigarettes 
You may choose to answer for yourself or your household. 


You will be about £0.00 better off in 2012/13 


Pints of beer WD classes ofwine p 
a e (175ml glass) = ~~ 


7) Glasses ofspiits f ( Packs of cigarettes 0] 
qi 6om doubles) 一 — 


图 2-4 ”BBC 的 财政 预算 计算 器 


3. 记者 角色 的 转变 


通过 数据 的 使 用 ， 记 者 工作 的 重点 从 “第 一 个 报道 者 ”转化 成 为 对 新 闻 事 
件 的 影响 的 阐释 者 。 数 据 新 闻 报 道 的 议题 范围 十 分 宽广 ， 记 者 更 有 意义 的 工作 
是 为 读者 提供 经 过 定量 分 析 的 洞 见 ， 使 用 数据 能 够 将 抽象 概念 转化 为 普通 人 容 
易 理解 的 事物 ， 帮 助 记者 讲述 抽象 的 社会 问题 。 记 者 们 还 可 以 分 析 复 杂 形 势 中 
各 种 变量 的 动态 关系 ， 能 够 为 读者 预见 下 一 次 正在 酝酿 的 金融 危机 ， 指 出 政府 
对 资金 的 滥用 和 决策 的 失误 ， 甚 至 帮助 人 们 寻找 复杂 问题 的 解决 方案 。 


D 资料 来 源 : http://www.bbe.co.uk/news/business-17442946。 
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数据 新 闻 需 要 计算 机 程序 员 、 数 据 分 析 人 员 与 编辑 、 记 者 密切 配合 。《 芝 
加 哥 论 坛 报 》 的 新 闻 应 用 程序 编辑 Brian Boyer ( 2011 ) 说 :“ 所 有 关于 新 闻 应 
用 程序 的 创意 都 来 自 新 闻 编辑 部 里 的 记者 和 编辑 ， 我 们 之 间 建 立 起 了 非常 牢固 
的 个 人 以 及 专业 关系 ,他 们 ( 编辑 和 记者 ) 获得 数据 后 ， 会 向 我 们 提供 想法 。” 

程序 员 的 工作 主要 是 辅助 记者 ， 帮 助 他 们 挖掘 数据 ， 将 庞杂 的 数据 转化 为 
电子 数据 表 等 。 程 序 员 实 时 处 理 新 闻 编 辑 部 正在 进行 的 数据 工作 ， 将 其 转化 为 
应 用 程序 一 一 一 张 地 图 、 一 个 图 表 ， 或 是 一 个 网 站 。 

数据 新 闻 的 应 用 程序 一 般 会 占据 新 闻 页 面 最 显著 的 位 置 ， 和 记者 的 文字 报 
道 相 辅 相 成 。 

例如 ， 英国 《 卫 报 》( Guardian ) 在 2011 年 的 伦敦 骚乱 中 运用 数据 新 闻 的 
方法 ， 帮 助 读者 更 好 地 理解 了 事态 进展 和 背后 原因 。 

伦敦 骚乱 发 生 后 ,英国 政治 上 的 保守 派 指责 脸谱 ( Facebook )、 推 特 ( Twitter ) 
和 黑莓 信使 (BBM ) 等 社交 媒体 传播 谣言 、 煽 动 骚乱 ， 并 据 此 要 求 哲 时 关闭 
社交 媒体 ， 但 政府 没有 调查 骚乱 发 生 的 真正 原因 。 

《 卫 报 》 与 学 界 进 行 合 作 ， 邀 请 曼彻斯特 大 学 的 学 术 团队 一 起 研究 社交 媒 
体 在 骚乱 中 的 作用 。 后 者 一 共 分 析 了 260 万 条 关于 骚乱 的 推 特 信息 ， 观 察 谣言 
如 何在 推 特 上 传播 ,不同 的 用 户 在 宣传 和 散布 信息 中 的 功能 ， 以 确定 推 特 和 其 
他 社交 媒体 是 否 煽动 了 骚乱 。 

《 卫 报 》 的 “解读 骚乱 ”数据 团队 使 用 地 图 显示 骚乱 发 生地 点 的 贫困 程度 
(如 图 2-5 所 示 )， 让 “骚乱 与 贫困 没有 关系 ”的 主流 政治 话语 不 攻 自 破 。 他 们 
还 制作 了 一 段 视频 ,将 暴乱 发 生地 和 参与 群众 的 家 庭 住 址 联系 起 来 ,显示 出 “ 暴 
乱 通勤 路 线 ”， 建 模 预 测 暴乱 者 最 有 可 能 采取 的 路 线 。 此 外 ， 研 究 者 对 推 特 信 
息 进行 了 内 容 分 析 ， 分 类 编码 为 : 重复、 驳斥、 质疑、 评论， 并 对 数据 进行 可 
视 化 处 理 ， 指 出 了 推 特 在 纠正 谣言 方面 发 挥 了 积极 作用 。 


92.24 ”数据 新 闻 的 采集 和 发 布 


1. 数据 收集 

《数据 新 闻 学 手册 》 为 我 们 提供 了 一 些 简单 的 搜索 建议 。 搜 索 数 据 时 ， 需 要 
包含 数据 的 内 容 以 及 信息 的 格式 或 是 来 源 。 谷 歌 和 其 他 搜索 引擎 提供 文件 类 型 
分 类 搜索 。 现 在 的 网 络 技术 允许 我 们 进行 精准 搜索 ， 比 如 电子 数据 表 ( 在 搜索 
时 附加 “格式 :XLS 格式 :CSV”), 地 理 数据 (“ 格 式 :SHP”), 数 据 库 抽 取 (“ 格 式 : 
MDB, XFA: SQL， 文 件 类 型 : DB”), 或 是 PDF 文件 (“格式 : PDF”)。 

另 一 种 方式 是 从 网 络 的 专用 数据 端口 、 数 据 中 心 以 及 其 他 数据 站 点 获得 
数据 。 
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Mapping the riots with poverty 

Data journalist Matt Stiles has taken our data on depnvation - and the riot incidents aver the 
last few days and mashed the two up together. The darker reds represent poorer places, the 
blues are the richer areas. What do you think? Is there a correlation between the two? 

+ Interactive map of the riot events 

+ More on how we mapped deprivation 


Simon Rogers 
guardian.co.uk Wednesday 10 August 2011 08.00 BST 
Jump to comments (..) 


图 2-5 《 卫 报 》 制 作 的 地 图 显示 骚乱 与 贫困 的 关系 

。 官方 数据 : 越 来 越 多 的 国家 开始 建立 自己 的 数据 门户 ， 以 促进 公众 和 
商业 机 构 对 政府 信息 的 重新 利用 ， 诸 如 美国 政府 的 data.gov 和 英国 政 
府 的 data.gov.uk。datacatalogs.org 提供 了 此 类 数据 的 全 球 最 新 索引 。 
英国 《 卫 报 》 的 全 球 政府 数据 是 一 个 元 搜索 引擎 ， 包 含 许多 国家 的 政 
府 数据 分 类 目录 。 

e data.hub 是 由 开放 知识 基金 会 运行 的 数据 资源 站 点 ,便于 查询 、 分 享 
并 重新 使 用 那些 已 公布 的 数据 。 

e scraperwiki 是 一 个 网 络 工具 ， 可 以 更 方便 地 提取 碎片 化 的 数据 并 在 其 
他 程序 中 重新 利用 ， 或 从 记者 和 研究 人 员 那 里 检索 数据 。 绝 大 多 数 数 
据 是 公开 的 ， 可 以 再 次 使 用 的 。 

e 世界 银行 和 联合 国 的 数据 端口 提供 了 所 有 国家 的 高 水 平 指标 ， 通 常 是 
多 年 的 数据 。 

。 出 现 了 一 些 致 力 于 数据 销售 和 再 销售 的 创业 公司 ， 包 括 Buzzdata 一 一 私 
人 和 公共 数据 包 分 享 及 合作 和 数据 商店 ( 如 Inforchimps 和 DataMarket )。 

© Datacouch: 这 是 一 个 上 传 、 提 炼 、 分 享 和 可 视 化 处 理 数据 的 地 方 。 


© 资料 来 源 : http://www.guardian.co.uk/news/datablog/interactive/2011/aug/10/poverty-riots-mapped。 
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© Freebase 是 谷歌 的 一 家 子 公 司 ， 由 开放 数据 的 爱好 者 们 组 成 ， 提 供 人 、 
地 点 和 事物 的 实体 图 。 

© 研究 数据 : 国家 和 学 科 的 数据 集合 不 胜 枚 举 ， 比 如 英国 数据 档案 。 

网 络 论坛 是 搜索 数据 的 另 一 去 处 。GetTheData 是 一 个 问答 网 站 ， 包含 各 
种 关于 数据 的 问题 ， 包 括 : 如 何 寻 找 关 于 特定 题目 ， 如 何 从 一 个 指定 数据 来 源 
获取 信息 ,可视化 工具 ， 数 据 清理 或 转变 为 可 操作 的 格式 。 数 据 记 者 还 可 以 使 
用 Data Driven Journalism List 和 NICAR-L 的 邮件 列表 ， 列 表 中 汇集 了 众多 数 
据 记 者 和 精通 计算 机 辅助 报道 (CAR) 的 “ 极 客 ” 的 信息 。 

除 此 之 外 ,程序 设计 员 们 还 组 成 了 一 个 数量 急剧 增长 的 国际 草根 新 闻 组 
织 ， 拥 有 几 十 个 分 部 ， 成 员 数 以 千 计 , 来自 五 湖 四 海 。 他 们 的 共同 目的 是 建立 
涵盖 数据 记者 和 技术 专家 的 工作 网 络 ， 重 新 思考 新 闻 和 信息 的 未 来 发 展 方向 。 

教授 、 政 府 公务 员 和 业界 人 士 都 是 可 以 提供 帮助 的 群体 。 

2. 数据 呈现 

从 原始 数据 配 上 新 闻 故 事 ， 到 创造 美丽 的 可 视 化 和 交互 式 网 络 应 用 程序 ， 
向 公众 展示 数据 有 很 多 不 同 的 方式 。 

有 的 时 候 ,数据 讲述 新 闻 的 效果 胜 过 文字 或 照片 ,这 就 是 “新 闻 应 用 ”和 “ 数 
据 可 视 化 ”在 编辑 室 里 如 此 受 人 瞩目 的 原因 。 新 闻 工 具 和 技术 的 大 丰收 ( 通常 
是 免费 的 ) 也 激发 了 人 们 的 兴趣 ， 它 们 可 以 让 最 不 善于 技术 的 记者 们 将 数据 转 
化 为 视觉 故事 。 

像 谷歌 融合 表 、Many Eyes, Tableau, Dipity 和 其 他 工具 , 让 用 户 创建 地 图 、 
图 表 、 图 形 等 数据 图 形变 得 易如反掌 ， 此 前 只 有 专家 才 可 以 完成 这 些 任务 。 记 
者 所 面 对 的 问题 则 是 是 否 应 该 将 数据 可 视 化 。 不 适宜 的 数据 可 视 化 在 许多 方面 
效果 适得其反 。 


Visualizations : Blockbusters - Top holdings of the biggest European bond funds 
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图 2-6 ”应 用 Many Eyes 制 作 的 欧洲 公债 基金 主要 持 有 者 人 


D 资料 来 源 : http://www-958.ibm.com/software/data/cognos/manyeyes/。 图 中 主体 部 分 文字 为 欧洲 公债 
基金 持 有 者 机 构 名 称 ， 未 翻译 。 
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《西雅图 时 报 》 的 Cheryl Phillips 介绍 说 ， 数 据 记者 们 经 常 通过 可 视 化 处 
理 将 数据 嵌入 新 闻 ， 让 读者 可 以 轻松 下 载 数据 集 ， 在 可 视 化 程序 中 进行 互动 
或 是 利用 数据 本 身 挖掘 新 闻 背 后 的 更 多 事实 。 这 样 的 新 闻 向 读者 公开 数据 ， 
供 批评 者 和 更 多 感 兴趣 的 人 使 用 ， 显 示 出 数据 记者 和 编辑 工作 的 透明 度 ， 他 
们 也 可 以 从 批评 者 和 读者 那里 获得 更 多 建议 。 这 些 对 于 提高 新 闻 质 量 十 分 
重要 。 

《纽约 时 报 》 研 发 团队 的 数据 设计 师 Jer Thorp 的 观点 是 ， 关 于 大 数据 的 很 
多 讨论 遗漏 了 一 项 : 人 性 面 。 人 们 大 多 把 数据 视 为 分 离 的 、 自 由 流动 的 数字 ， 
而 忽略 它们 其 实 是 对 ( 通常 是 很 有 人 性 的 ) 真实 事物 的 测量 。 数 据 和 真实 的 
人 、 真 实 的 生活 紧密 相连 ， 数 据 专家 必须 要 思考 生产 数据 的 真实 世界 。 目 前 为 
JE, 位 置 数据 的 使 用 者 都 是 第 三 方 一 一 程序 开发 员 , 知名 品牌 和 广告 公司 。“ 第 
二 方 ”( 电信 商 和 设备 管理 者 ) 拥有 这 些 数 据 ， 而 “第 一 方 ”， 即 我 们 每 个 人 
既 无 法 得 到 数据 也 无 法 支配 这 些 信息 。 《纽约 时 报 》 的 研发 团队 推出 了 一 个 叫 
Openpaths.ce 的 原型 设计 ， 人 允许 公众 探索 他 们 自己 的 位 置 数据 ， 并 亲身 体验 数 
据 拥有 者 的 概念 。 毕 竞 ， 人 们 应 该 对 和 他 们 自身 生活 及 经 历 密切 相关 的 数据 有 
一 定 控制 权 。 

新 闻 应 用 程序 允许 透 过 新 闻 故 事 观 察 背 后 数据 的 通道 。 它 们 既 可 能 是 可 搜 
索 的 数据 库 ， 还 可 以 是 漂亮 的 可 视 化 产品 。 无 论 采 用 怎样 的 形式 ， 新 闻 应 用 程 
序 的 主旨 是 鼓励 读者 和 数据 互动 ， 发 掘 数据 的 意义 ， 比 如 查询 所 处 地 区 的 犯罪 
趋势 、 社 区 医生 的 安全 执业 记录 ， 或 是 他 们 自己 选 出 的 候选 人 的 政绩 。 


M8) 社会 管理 | 和 | || 


12.3.1 ”社会 管理 的 运行 面临 重大 考验 


根据 贝克 的 风险 社会 理论 ， 不同 于 过 去 面临 的 大 自然 所 构成 的 严重 威胁 ， 
高 度 发 达 的 工业 社会 带 来 的 巨大 风险 和 灾难 不 仅 对 整个 部 门 和 地 区 的 财产 、 资 
本 、 就 业 机 会 、 工 会 的 力量 等 构成 严重 威胁 , 还 对 整个 部 门 和 地 区 的 经 济 基础 、 
民族 国家 的 社会 结构 、 全 球 市 场 等 构成 严重 威胁 。 

这 意味 着 从 工业 社会 向 风险 社会 过 渡 时 将 会 经 历 一 段 制 度 混乱 的 过 程 ， 使 
得 整个 社会 缺乏 稳定 感 ， 而 在 这 种 制度 混乱 和 社会 动荡 的 状况 下 ， 所 有 的 决定 
与 决策 都 与 地 方 政府 有 关 ， 从 行车 速度 限制 、 停 车 场 建设 、 工 业 产品 的 生产 细 
节 等 一 系列 具体 政策 ， 到 政府 有 关 能 源 供应 、 法 律 法 规 、 技 术 进 步 等 根本 问题 
的 总 政策 ， 都 会 突然 被 卷 进 与 风险 和 灾难 有 关 的 根本 冲突 之 中 。 
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因此 ， 风 险 社会 对 社会 管理 提出 了 严峻 的 考验 。 全 世界 范围 内 的 政府 都 
在 努力 应 对 日 益 沉重 的 压力 ， 提 高 社会 管理 工作 的 效能 。 特 别 是 在 后 经 济 衰退 
的 余波 中 ， 许 多 政府 都 必须 保持 高 水 准 的 社会 管理 能 力 ， 寻 求 财政 预算 紧缩 以 
减少 国债 ， 斥 巨 资 刺激 国内 增长 。 除 了 降低 债务 水 平 ， 许 多 国家 还 面临 中 到 长 
期 的 预算 紧张 一 一 主要 原因 是 人 口 老龄 化 将 会 大 大 增加 医疗 和 社会 保障 领域 的 
支出 。 

当前 我 国 社会 处 于 经 济 快速 发 展期 ， 同 时 也 凸显 各 种 矛盾 。 政 府 需 要 收集 
巨 量 数据 与 数 百 万 公民 打交道 ， 绩 效 表现 往往 参差 不 齐 。 尽 管 潜在 好 处 巨大 ， 
但 政府 面临 利用 这 一 宝库 的 巨大 障碍 : 很 少 有 管理 者 主动 发 气 所 拥有 的 信息 ， 
而 政府 往往 将 信息 保存 在 各 自 为 政 的 部 门 中 。 

政府 部 门 是 否 可 以 通过 大 数据 的 应 用 提升 自己 的 生产 力 和 工作 效能 呢 ? 
麦肯锡 研究 了 欧盟 国家 的 政府 部 门 行政 管理 ， 发 现 大 数据 的 应 用 工具 可 以 为 
社会 管理 提供 有 效 的 策略 和 技巧 ， 以 提升 生产 力 、 提 高 效率 及 影响 力 : 欧盟 
政府 部 门 可 能 会 减少 15%~20% 的 行政 开支 ， 创造 1500 亿 到 3000 亿 欧 元 的 新 
价值 。 大 数据 还 可 以 在 未 来 10 年 中 将 年 度 增长 率 最 高 提高 0.5% (James et al., 
2011 )。 


$23.2 ”应 用 大 数据 推动 社会 管理 


麦肯锡 全 球 研究 所 的 大 数据 研究 报告 显示 ， 欧 盟国 家 对 大 数据 工具 的 应 用 
可 以 从 五 个 主要 方面 推动 社会 管理 水 平 (James et al., 2011 )。 

1. 实现 信息 透明 

若 政府 部 门 大 数据 库 的 数据 更 加 易 得 ,外 部 利益 相关 者 〈 比如 公民 和 企业 ) 
和 内 部 利益 相关 者 〈 比如 政府 雇员 和 政府 机 构 ) 都 能 够 提高 自身 的 工作 效率 。 
比如 ， 政 府 机 构 通过 多 种 管理 文件 常规 性 地 收集 关于 个 人 和 企业 的 大 量 数据 ， 
但 个 人 和 企业 则 经 常 需要 填写 已 经 收集 过 且 已 经 储存 的 数据 。 如 果 政 府 机 构 可 
以 在 收集 数据 时 提供 预先 填写 好 的 表格 (已 在 政府 数据 库 中 的 信息 将 会 自动 登 
记 )， 表 格 提交 者 节省 时 间 ， 政 府 机 构 也 无 须 重复 输入 数据 。 目 前 越 来 越 多 的 
不 同 层级 的 政府 部 门 开始 引入 “开放 数据 "的 原则 ,允许 公众 获得 原始 政府 数据 。 
例如 : 美国 的 data.gov、 英 国 的 data.gov.uk 和 西班牙 的 www.proyecctoaporta.es 
都 属 此 类 。 个 人 和 企业 可 以 使 用 越 来 越 大 的 数据 库 。 这 样 的 努力 开启 了 海量 
的 数据 创新 ， 人 们 将 多 种 来 源 的 数据 结合 起 来 ( 比如 来 自 执法 部 门 和 市 政工 程 
的 “官方 ”数据 及 来 自 社交 媒体 的 公民 记者 “ 非 官方 ”报道 相 结合 ) 以 创造 
类 似 “ 网 络 城市 ”新 闻 ， 记 录 在 某 个 特定 城市 发 生 的 事件 。 其 他 的 案例 包括 
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expectmore.gov 和 Dr. Foster， 为 英国 公民 提供 卫生 医疗 信息 ， 旨 在 直接 测量 项 
目的 绩效 。 

2. 发 现 需求 、 展 现 差异 和 提高 绩效 

大 数据 的 重要 贡献 之 一 是 它 可 以 发 现 不 同 政府 机 构 在 行使 相似 职能 时 呈 
现 出 的 巨大 绩效 差异 ， 这 个 信息 对 在 机 构 内 提高 各 部 门 的 执行 能 力 提供 了 重要 
机 遇 。 比 如 ， 绩 效 仪表 板 显示 出 运行 和 财务 数据 ， 让 政府 机 构 衡 量 和 比较 各 个 
部 门 的 绩效 。 有 研究 者 认为 缺少 外 部 竞争 是 政府 行政 水 平 较 低 的 原因 ， 这 自然 
是 原因 之 一 。 然 而 ， 即 便 在 外 部 竞争 压力 较 弱 的 情况 下 ， 凸 显 不 同 部 门 工作 绩 
效 差异 仍 可 以 带 来 内 部 竞争 ， 提 高 效率 。 即 使 没有 财务 上 的 奖励 机 制 ， 位 于 平 
均 水 平 之 下 的 部 门 负责 人 也 会 因为 位 列 榜 尾 而 希望 和 更 好 的 表现 。 

3. 人 口 细 分 和 定制 政策 

在 私营 部 门 ， 使 用 市 场 细 分 为 个 体 提供 定制 服务 的 做 法 已 经 延续 多 年 。 然 
而 ， 社 会 观念 却 认为 政府 部 门 应 该 为 全 体 公 民 提 供 均 等 化 服务 。 麦 肯 锡 的 研究 
报告 发 现 ， 根 据 个 体 和 人 和 群 将 公共 服务 进行 细 分 与 定制 能 够 提高 效率 、 效 果 和 
公民 的 满意 度 。 比 如 ， 德 国联 邦 劳工 局 分 析 了 数量 巨大 的 历史 数据 ， 包 括 失业 
工人 的 历史 、 政 府 干预 及 其 结果 、 求 职 花费 时 间 等 。 随 后 劳工 局 根据 此 分 析 形 
成 了 人 和 群 细 分 ， 调 整 了 政府 对 失业 人 群 的 帮助 。 这 个 政策 连同 其 他 措施 实施 了 
三 年 ， 帮 助 劳工 局 每 年 减少 149 万 美元 的 开支 ， 减 少 了 失业 人 口 重 新 人 职 的 时 
间 ， 而 且 提 高 了 使 用 服务 者 的 满意 度 。 同 样 ， 政 府 的 税收 部 门 可 以 使 用 大 数据 
对 个 人 和 企业 纳税 人 进行 分 割 。 比 如 ， 可 以 将 他 们 按照 地 理 、 守 信 记 录 、 违 约 
风险 、 征 缴 难 度 以 及 收入 水 平和 人 口 特征 将 纳税 人 分 类 。 有 效 的 分 割 可 以 将 潜 
在 征 缴 和 实际 征 缴 之 间 的 差距 缩小 10%， 同 时 更 加 精准 的 互动 还 可 以 将 用 户 
满意 度 提升 15% 之 多 。 

4. 使 用 自动 计算 代替 或 辅助 人 为 决策 

大 数据 的 更 为 复杂 、 更 为 高 级 的 应 用 是 使 用 自动 算法 来 分 析 大 数据 库 ， 从 
而 帮助 决策 者 判断 。 举 例 来 说 ， 政 府 机 构 需 要 找 出 财政 支出 中 的 异常 ， 比 如 劳 
动 部 或 社保 部 需要 了 解 缴 税 、 保 险 支付 的 异常 状况 。 税 收 机 构 使 用 自动 运算 对 
纳税 申报 单 进行 系统 和 多 层级 检查 ， 并 且 能 自动 标识 出 需要 进一步 检查 或 是 审 
计 的 税 单 。 这 种 方法 能 够 大 大 促进 征 税 工作 的 效能 。 

运算 法 则 能 够 从 多 种 源头 抓 取 大 量 数据 ， 识 别 出 不 一 致 、 错 误 和 虚假 信 
息 。 比 如 ， 基 于 规则 的 算法 能 够 标志 出 可 疑 的 相关 事件 一 一 一 个 人 在 收 到 失业 
补助 的 同时 还 提交 了 一 份 工伤 案件 。 使 用 更 加 先进 和 调 优 的 运算 法 技术 〈 比如 
人 工 神经 网 络 ) 可 以 降低 错误 判断 和 错误 否定 的 可 能 性 。 在 使 用 自动 分 析 方法 
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之 后 ， 德 国 劳动 部 汇报 减少 了 20% 的 错误 发 放 补助 。 

5. 大 数据 应 用 在 社会 管理 中 的 发 展 潜力 

在 欧洲 国家 政府 部 门 的 运行 中 ， 大 数据 的 应 用 可 以 带 来 三 个 方面 的 回报 : 
运行 效率 提高 减少 开支 ， 减 少 出 错 成 本 和 福利 管理 中 的 诈骗 ， 以 及 缩小 税收 缺 
口 。 麦 肯 锡 预测 ， 提 高 效率 的 大 数据 应 用 适用 于 20%~25% 的 运行 预算 ， 可 节 
省 15%~20% 的 开支 ; 减少 福利 发 放 中 的 错误 以 及 通过 欺骗 获得 的 福利 大 约 可 
以 节省 40% 的 成 本 ;至 于 增加 税收 , 预计 税收 缺口 占 欧洲 税 捐 收入 的 5%~10%， 
其 中 的 20% 可 以 被 回收 。 总 的 来 看 ， 欧 洲 最 大 的 23 个 国家 政府 可 以 在 未 来 时 
间 中 创造 1500 亿 欧 元 至 3000 亿 欧 元 的 新 价值 。 


[2.3.3 ”大 数据 对 中 国 社会 管理 的 意义 


在 矛盾 多 发 期 的 中 国 当代 社会 中 ,公共 管理 和 公共 服务 的 维护 事 关 全 体 社 
会 成 员 根本 利益 ， 它 的 实质 是 保障 和 改善 民生 ， 维 护 社会 稳定 。 目 前 的 社会 管 
理 存在 的 制约 要 求 管理 部 门 形成 科学 有 效 的 利益 协调 机 制 、 诉 求 表 达 机 制 、 矛 
盾 调 处 机 制 、 权 益 保障 机 制 和 统筹 协调 机 制 。 

中 央 对 于 社会 管理 的 高 度 重视 体现 在 : 2011 年 2 月 19 日 ， 胡 锦 涛 总 书 
记 发 表 的 讲话 中 提 及 ， 社 会 管理 事 关 科学 发 展 ， 事 关 国家 长 治 久 安 。2011 年 
2 月 20 日 ,周永康 评价 社会 管理 * 事 关 党 的 执政 地 位 "。 同 年 5 月 30 日 的 政 
治 局 会 议 上 指出 ， 我 国 既 处 于 发 展 的 重要 战略 机 遇 期 ， 又 处 于 社会 矛盾 凸显 
期 。 社 会 管理 理念 思路 、 体 制 机 制 、 法 律 政策 、 方 法 手段 等 方面 还 存在 很 多 不 
适应 。 

运用 社会 大 数据 进行 与 情 研判 ， 是 社会 管理 创新 的 重要 手段 。 

旺 论 安全 是 我 国 非 传统 安全 的 重要 组 成 部 分 ， 和 与 论 是 可 量化 、 可 统计 、 可 
识别 、 可 引导 的 意见 流 ， 和 与 论 工 作 的 重点 是 识别 社会 风险 、 掌 握 社 情 民意 、 支 
持 科 学 决策 ， 其 政治 性 、 专 业 性 、 技 术 性 、 系 统 性 强 。 

随 着 互联 网 信息 传播 的 全 面 普及 ， 社 会 僵 情 越 来 越 多 地 借助 互联 网 进行 传 
播 ， 社 会 与 情 从 酝酿 到 爆发 需要 的 时 间 越 来 越 得 ， 如 果 借 助 传统 的 社会 调查 等 
手段 采集 和 分 析 和 与 情 ， 往 往 贻 误 战 机 。 因 此 ,在 新 的 传播 形势 下 开展 社会 与 情 
研判 和 预警 工作 的 着 力 点 在 于 : 以 网 络 信息 文本 挖掘 和 分 析 技术 为 手段 ， 通 过 
建立 灵敏 高 效 的 工作 网 络 和 科学 完善 的 工作 机 制 ， 总 结 熏 论 传播 规律 ， 及 时 识 
别 风险 并 发 出 危机 预警 ， 并 提出 行 之 有 效 的 危机 应 对 策略 建议 。 

截至 2011 年 年 底 ， 我 国 已 有 网 络 与 情 相 关 文 献 近 900 篇 ， 主 要 集中 在 信 
息 科 学 、 社 会 学 、 公 共管 理学 、 新 闻 传 播 学 等 学 科 领 域 。 
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其 中 ,信息 科学 的 研究 主要 集中 于 如 下 内 容 : 文本 挖掘 在 网 络 与 情 分 析 中 
的 应 用 研究 ， 互 联网 络 与 情 预警 机 制 研究 ， 互 联网 内 容 及 熏 情 深度 分 析 模 式 研 
究 ， 基 于 主题 聚 类 的 热点 发 现 研究 ， 基 于 情感 计算 的 网 络 中 文 信息 分 析 及 技术 
研究 ， 基 于 信号 分 析 的 与 情 预 警 研究 ， 语 义 倾 向 分 析 方 法 研究 ， 网 络 传播 的 无 
标 度 特 征 及 其 衰减 规律 研究 ， 网 络 与 情 监测 系统 中 的 主题 帖 自动 标 引 及 情感 倾 
向 分 析 研 究 等 。 

社会 学 和 公共 管理 学 的 研究 主要 侧重 于 网 络 与 情 传播 对 群体 性 事件 的 影 
响 模 型 和 动力 机 制 研究 ， 突 发 性 事件 的 导论 管理 ， 突 发 性 事件 的 群体 心理 和 行 
为 ， 群 体 性 突 发 性 事件 的 网 络 与 情 演变 机 制 研 究 等 。 

来 自 新 闻 传播 学 的 研究 主要 从 与 论 传播 规律 、 熏 论 研 判 的 指标 体系 、 和 与 论 
预警 指标 体系 等 方面 开展 研究 。 

总 的 来 讲 ， 信 息 科 学 侧重 于 互联 网 文本 挖掘 和 分 析 技术 层面 的 研究 ， 社 会 
学 和 管理 科学 侧重 于 突 发 群体 性 事件 管理 中 的 群体 心理 行为 和 与 论 控制 研究 ， 
新 闻 传播 学 侧重 于 对 与 论 的 本 体 进行 规律 性 的 探索 和 研究 。 

清华 大 学 国际 传播 研究 中 心 李 希 光 教 授 主持 的 国家 社 科 基 金 重大 项 目 成 
果 一 一 社会 与 情 研判 预警 系统 ( 以 下 简称 与 情 系统 ) 是 以 社会 与 情 的 监测 、 研 
判 和 预警 为 工作 目标 ， 以 互联 网 信息 挖掘 技 术 和 分 析 技术 为 基础 ， 以 计算 机 软 
件 为 主要 工具 ， 以 灵敏 高 效 的 工作 网 络 机 制 为 保障 ， 为 党 和 政府 的 与 情 管理 等 
相关 部 门 提供 服务 的 工作 机 制 。 其 目的 在 于 及 时 了 解 和 把 握 社 情 民意 ， 对 当前 
社会 热点 话题 进行 科学 分 析 和 研判 ， 尽 量 降 低 各 类 突 发 事件 带 来 的 负面 影响 ， 
科学 预测 重大 危机 事件 的 与 论 走势 ， 提 供 危机 管理 和 应 对 的 决策 参考 。 


和 与 情 工作 | 与 情 信息 
规划 采集 


与 情 信息 
分 析 研 判 


图 2-7 ”舆情 信息 工作 流程 示意 图 


在 与 情 系统 的 工作 流程 中 ， 领 导 决 策 既 是 与 情 信息 工作 的 起 点 ， 也 是 与 情 
信息 工作 的 中 枢 ， 一 切 都 是 为 了 给 决策 者 提供 科学 的 与 情 信息 情报 。 为 了 使 决 
策 者 充分 和 有 效 地 使 用 与 情 信 息 , 有 关 和 与 情 信息 工作 人 员 需 要 较 高 的 政治 觉悟 ， 
精准 的 分 析 问 题 能 力 ， 高 度 的 危机 意识 ， 准 确 领悟 与 情 监测 的 内 容 ， 科 学 设计 
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与 情 工 作 的 规划 ， 包 括 : 通过 哪些 渠道 调研 与 情 ， 调 研 哪 方面 的 与 情 ， 使 用 哪 
些 关键 词 进行 监测 ， 监 测 的 周期 ， 监 测 的 内 容 等 。 
与 情 信 息 的 采集 如 果 通 过 人 工 的 方式 进行 ， 既 耗费 大 量 的 人 工 ， 还 需要 很 
长 的 调研 周期 ， 在 信息 瞬息 万 变 的 今天 ， 这 种 传统 的 与 情 采集 方式 越 来 越 捉 襟 
见 肘 ， 因 此 ， 本 课题 的 主要 产 出 一 一 与 情 系统 ， 可 根据 预 设 的 关键 词 和 监测 范 
围 ， 通 过 接 和 互联网， 自动 采集 新 闻 网 站 、 论 坛 、 博 客 、 微 博 等 多 媒体 平台 的 
与 情 信息 ,自动 筛选 有 用 的 数据 ,自动 统计 ,自动 识别 , 大 大 地 节省 人 力 物 力 ， 
为 实时 掌握 与 情 动态 、 发 出 预警 提供 了 基本 的 条 件 。 
网 络 与 情 的 研究 属于 跨 学 科 重大 研究 课题 ， 因 此 在 研究 过 程 中 充分 融合 了 
新 闻 传 播 学 、 社 会 学 、 信 息 科 学 、 管 理学 等 学 科 的 研究 方法 , 从 新 闻 传 播 学 的 
实证 研究 范式 出 发 , 关注 与 论 酝酿 、 发 酵 、 爆 发 的 动力 模式 ， 以 及 在 这 一 系列 
过 程 中 信息 的 变化 规律 , 以 信息 技术 的 最 新 进展 作为 手段 , 充分 利用 计算 机 和 
互联 网 技术 中 的 文本 挖 所 技术 、 互 联网 仆 虫 技术 了、 自动 聚 类 技术 、 自 动 标 引 技 
术 、 情 感 判 断 技 术 等 ， 实 现 信息 采集 、 信 息 存储 、 信 息 预 处 理 、 信 息 统计 与 分 
析 的 自动 化 。 在 此 需要 强调 的 是 ， 上 述 技术 的 目的 是 为 了 实现 对 海量 信息 的 快 
速 、 准 确 处 理 ， 以 弥补 人 工 处 理 信息 的 天 然 不 足 ， 但 其 基本 思想 仍然 是 来 源 于 
传统 的 新 闻 传 播 学 研究 方法 ， 如 : 内 容 分 析 法 、 语 义 分 析 法 等 。 
与 情 系统 的 架构 设计 、 工 作 流 程 与 相应 的 关键 技术 解决 方案 如 表 2-1 所 示 。 
表 2-1 僵 情 系统 架构 、 流 程 与 关键 技术 解决 方案 


与 情 系统 架构 关键 技术 解决 方案 


信息 采集 系统 信息 定向 采集 基于 网 络 候 虫 技术 的 互联 网 信息 采集 技术 
元 搜索 系统 信息 全 网 采集 元 搜索 引擎 技术 
( Meta-search Engine ) 
数据 处 理 系 统 信息 预 处 理 对 信息 进行 结构 化 预 处 理 ， 文 本 挖掘 技术 
智能 分 析 系 统 定量 描述 与 风险 识别 | 奥 情 走势 模拟 ， 和 与 情 热点 发 现 ， 熏 情态 度 分 
析 ， 重 点 人 物 关 联 分 析 ， 重 点 机 构 关 联 分 析 
风险 预警 系统 发 出 预警 信号 宏观 与 情 风险 指数 研究 ， 微 观 敏感 与 情 识别 


研究 


项 目 实现 的 基本 技术 路 线 是 ， 使 用 面向 对 象 的 技术 进行 系统 设计 和 实现 ， 
使 用 Java 技术 ， 遵 照 DEE 标准 ， 其 体系 结构 自 下 而 上 分 为 三 层 ， 分 别 为 数据 
层 、 业 务 逻 辑 层 和 表现 层 。 


D 网 络 候 虫 ,又 被 称 为 网 页 蜂 蛛 , 网 络 机 器 人 , 是 按照 一 定 的 规则 自动 抓 取 互联 网 信息 的 程序 或 脚本 。 
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系统 架构 的 示意 图 如 图 2-8 所 示 : 


全 媒体 : 电视 ,文字 ， 图 片 
全 类 别 : 新 闻 ， 论 坛 ， 博 客 


结果 展示 
服务 器 


数据 处 理 
服务 器 


移动 终端 


图 2-8 系统 架构 示意 图 


此 架构 符合 目前 主流 的 与 情 系统 架构 标准 ， 不 但 能 够 很 好 地 满足 对 系统 
的 业务 需求 ， 而 且 具 有 较 好 的 扩展 性 和 安全 性 ， 具 备 强大 的 技术 升级 能 力 。 系 
统 的 抓 取 服务 器 、 数 据 存储 服务 器 、 运 算 服 务 器 、 展 现 服务 器 可 分 布 式 处 理 ， 
能 满足 对 大 型 数据 业务 的 需求 ， 可 以 在 各 种 主流 硬件 平台 和 Windows, Linux, 
Mac 等 多 个 操作 系统 上 运行 ， 支 持 各 类 Web 服务 器 和 浏览 器 ， 通 过 各 类 电脑 
操作 系统 或 各 种 终端 ， 都 可 以 访问 、 管 理 整个 系统 平台 。 


M24 经 济 管理 有 | | | 


上 有 2.4.1 零售 业 


和 大 数据 相关 的 技术 为 创造 价值 提供 了 重大 的 新 机 遇 。 和 零售 部 门 永 无 止境 
地 争先 发 现 和 使 用 大 数据 为 自己 赢得 竞争 优势 。 零 售 商 们 不 仅 记录 下 每 一 笔 交 
易 和 操作 ， 还 记录 着 新 出 现 的 数据 源 比如 REID 芯片 ， 可 追踪 货物 、 在 线 消费 
者 的 行为 和 情感 表现 ， 这 使 得 数据 量 的 增长 势 不 可 当 。 麦 肯 锡 全 球 研究 所 的 大 
数据 报告 介绍 了 大 数据 技术 在 零售 业 、 制 造 业 中 的 应 用 及 其 对 整 条 行业 链 的 影 
响 ( James et al., 2011 )。 
事实 上 ,零售 业 通过 使 用 信息 技术 的 影响 力 获 利 的 做 法 已 经 有 几 十 年 的 历 
史 。 比 如 ， 在 美国 ,零售 终端 的 交易 数据 一 一 主要 从 条 形 码 中 获得 一 一 在 20 
世纪 70 年 代 首次 出 现 。20 世纪 90 年 代 之 后 ， 许 多 大 型 零售 商都 开始 使 用 门 
市 层级 和 供应 链 的 数据 来 优化 配送 和 物流 ， 加 快 货物 规划 和 管理 ， 升 级 店铺 运 
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营 。 比 如 沃尔玛 施行 不 间断 的 管理 创新 方法 ， 直 接 和 间接 地 促使 了 整个 日 用 百 
货 行 业 在 20 世纪 90 年 代 的 生产 力 加 速 提升 ， 比 如 仓储 式 格式 ， 每 日 最 低 价 ， 
提升 竞争 强度 ， 鼓 励 最 优 的 管理 和 技术 的 扩散 。 沃 尔 玛 还 开拓 了 电子 数据 交换 
系统 ， 将 供应 链 用 电子 化 的 方式 连接 。 沃 尔 玛 研 发 的 “Retail Link” 可 以 让 供 
应 商 大 致 浏览 其 门店 ， 了 解 什么 货品 需要 重新 进货 而 不 是 被 动 等 待 订单 。 这 种 
“厂商 管理 存货 ”的 方法 是 一 个 革新 性 的 概念 ， 在 20 世纪 80 年 代 开 始 采用 。 
这 两 种 创新 方式 大 大 地 提高 了 零售 商 的 资本 和 人 力 的 生产 效率 。 当 其 他 零售 商 
在 20 世纪 90 年 代 开始 模仿 沃尔玛 的 首创 ， 以 保持 竞争 力 时 ， 整 个 行业 的 生产 
效率 随 之 全 面 提升 。 

今天 ， 领 跑 者 们 正在 挖掘 消费 者 数据 ， 为 从 管理 供应 链 到 推销 和 定价 等 一 
系列 问题 提供 决策 参考 。 沃 尔 玛 详细 的 、 符 合成 本 效率 的 消费 者 跟踪 系统 让 零 
售 商 们 可 以 挖掘 消费 者 偏好 和 消费 行为 的 大 数据 ， 从 而 从 消费 者 产品 生产 商 那 
里 赢得 关键 的 定价 和 配送 特许 权 。 

整个 行业 的 零售 商 对 大 数据 的 处 理 变 得 日 至 娴熟 ， 数 据 来 白 多 种 销售 渠 
道 、 商 品目 录 、 商 店 、 在 线 互 动 。 消 费 者 数据 日 益 颗 粒状 ， 而 这 些 数据 的 广泛 
应 用 让 零售 商 能 够 提高 市 场 营 销 的 有 效率 .将 大 数据 工具 应 用 到 运行 和 供应 链 ， 
可 持续 降低 费用 ， 不 断 创造 新 的 竞争 优势 和 策略 ， 获 得 更 大 的 效益 。 

麦肯锡 报告 指出 了 零售 商 使 用 的 16 种 大 数据 技术 ， 按 照 价 值 链 走 向 分 为 
五 个 主要 领域 : 营销 、 销 售 、 运 营 、 供 应 链 和 新 商业 模式 (James et al., 2011 )。 

1. 营销 

1 ) 交叉 销售 

交叉 销售 的 最 新 发 展 是 使 用 消费 者 可 知 的 所 有 数据 ， 包 括 人 口 学 信息 、 购 
买 历史 、 偏 好 、 实 时 位 置 以 及 增加 平均 销售 规模 的 其 他 因素 。 比 如 ， 亚 马 逊 网 
站 使 用 协作 过 滤 方 法 ,在 用 户 访问 或 购买 产品 时 出 现 “ 你 或 许 还 想 要 ”的 提示 。 
亚马逊 曾经 一 度 报告 说 30% 的 销售 额 都 源 自 它 的 推荐 工具 (Hardy, 2011 )。 
这 项 技术 的 另 一 个 实例 是 使 用 大 数据 分 析 对 店内 优惠 促销 进行 优化 ， 进 而 推送 
补充 产品 或 捆绑 产品 。 

2 ) 定位 营销 

基于 位 置 的 营销 依赖 越 来 越 多 人 采用 智能 手机 和 其 他 带 有 个 人 位 置信 息 
的 设备 。 它 以 接近 商店 或 已 在 店内 的 消费 者 为 目标 。 比 如 ， 当 一 个 消费 者 接近 
一 家 服装 店 ， 这 家 店 会 发 送 一 则 特价 外 套 信息 到 他 / 她 的 智能 手机 上 。 

3 ) 店内 行为 分 析 

分 析 消 费 者 在 店内 的 行为 能 够 帮助 提升 商店 的 布局 设计 、 产 品 组 合 以 及 货 
架 摆 放 。 最 近 的 创新 让 店家 可 以 从 智能 手机 应 用 程序 、 购 物 车 应 答 机 或 是 检测 
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店内 手机 的 方位 来 获取 实时 位 置 数据 ， 追 踪 消 费 者 的 购物 模式 ( 比如 在 店内 不 
同 地 段 花费 的 时 间 和 步 径 )。 一 些 零售 商 使 用 和 监控 摄像 头 相连 的 图 像 分 析 软 
件 来 记录 店内 行走 轨迹 和 消费 者 行为 。 

4) 消费 者 微细 分 

男 一 项 大 数据 技术 是 消费 者 的 微细 分 。 虽 然 这 个 概念 已 经 存在 ,但 是 大 数 
据 带 来 了 巨大 的 创新 。 细 分 所 使 用 的 数据 量 急 剧 增长 ， 分 析 工 具 日 益 成 熟 ， 使 
得 部 门 还 可 以 进一步 细 分 一 一 直到 零售 商 可 以 开展 个 性 化 服务 ， 而 不 是 简单 的 
市 场 细 分 。 除 了 使 用 传统 的 市 场 调 查 数据 和 历史 购买 数据 ， 商 家 现在 可 以 追踪 
和 使 用 个 体 消费 者 的 行为 ,包括 网 站 的 点 击 流 。 商 家 可 以 将 日 益 精 细 的 数据 继 
续 升 级 到 实时 数据 ， 以 根据 消费 者 变化 做 出 调整 。 尼 曼 ， 马 库 斯 一 一 一 家 高 端 
商场 一 一 采用 了 行为 细 分 和 多 层 式 会 员 奖 励 计划 ， 这 个 组 合 大 大 提高 了 高 利润 
商品 在 高 端 客户 中 的 销售 额 。 

5 ) 情感 分 析 

情感 分 析 使 用 大 量 来 自 各 类 社交 媒体 消费 者 的 数据 流 ， 为 多 种 商业 决策 提 
供 参 考 。 比 如 ， 商 家 可 以 使 用 情感 分 析 测 量 消费 者 对 营销 活动 的 实时 反应 从 而 
做 出 相应 的 调整 。 不 断 演变 的 社交 媒体 数据 分 析 在 其 中 发 挥 重 要 作用 ， 因 为 消 
费 者 依赖 同伴 的 喜好 和 评价 做 出 购买 决定 。 现 已 出 现 了 各 种 工具 可 以 实现 实时 
监测 和 反馈 网 络 消费 者 的 行为 与 选择 。 

6 ) 提高 消费 者 多 渠道 的 体验 

提高 消费 者 的 多 渠道 体验 能 够 有 力 提升 销售 额 、 消 费 者 满意 度 和 忠诚 度 。 
商家 使 用 大 数据 将 促销 和 定价 无 缝 接合， 无 论 消 费 者 是 在 虚拟 商店 、 实 体 商 
店 购物 还 是 仅仅 在 阅读 产品 目录 。 比 如 威廉 斯 * 索 纳 玛 公司 将 消费 者 数据 与 
6000 万 家 庭 信 息 相 整合 ， 追 踪 他 们 的 家 庭 收 入 、 房 屋 价格 和 子女 数目 。 有 和 针 
对 性 的 电子 邮件 广告 收 到 的 反馈 是 普通 邮件 的 10 到 18 倍 ， 公 司 因此 能 够 制作 
不 同 版 本 的 目录 ， 符 合 不 同 消费 者 群体 的 偏好 和 行为 特征 。 

2. 销售 

1 ) 分 类 优化 

分 类 优化 指 根据 人 口 学 特征 、 购 买 者 认 知 和 其 他 大 数据 信息 来 判断 哪些 产 
品 适 合 在 哪 家 商店 出 售 ， 可 以 极 大 地 促进 销售 额 。 比 如 ， 一 家 零售 药店 使 用 消 
费 者 调查 、 市 场 和 竞争 性 分 析 及 详细 的 经 济 模型 ， 目 的 是 识别 其 在 产品 层面 增 
长 乏力 的 原因 。 它 将 总 体 库 存单 位 减少 了 17%， 将 贴 有 零售 商标 签 的 产品 比 
率 从 10% 提高 到 14%， 实 现 了 3% 的 收入 增长 以 及 2% 的 销售 额 增长 。 

2 ) 价格 优化 

当下 ， 零 售 商家 能 够 使 用 更 高 层级 的 分 析 工具 将 定价 优化 提 至 新 的 高 度 ， 
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可 以 使 用 多 种 来 源 的 数据 ， 近 平实 时 地 对 定价 决策 做 出 评估 ， 提 供 参 考 信 息 ; 
通过 复杂 的 弹性 需求 模型 观察 历史 销售 数据 ， 了 解 在 库存 单位 层面 的 定价 ， 包 
括 减 价 和 调度 。 商 家 可 以 使 用 数据 分 析 促 销 活动 ， 评 估 销 售 额 增加 的 原因 及 其 
成 本 。 一 家 食品 零售 店 观察 到 了 不 同 产 品目 录 在 不 同 消费 者 中 的 价格 弹性 。 比 
如 ， 农 村 食品 消费 者 认为 油 和 米 是 更 高 优先 级 的 购物 产品 ， 因 此 这 些 商 品 的 价 
格 弹性 或 许 低 于 城市 消费 者 ， 而 后 者 倾向 于 将 谷类 食品 和 糖果 列 为 优先 采购 
物品 。 

3 ) 放置 和 设计 优化 

实体 商店 能 够 通过 挖掘 库存 单位 的 销售 数据 、 优 化 物品 放置 和 视觉 设计 获 
得 极 大 的 增收 ,本质 上 ， 根 据 足 迹 信息 使 用 本 地 化 的 方式 优化 设计 。 在 线 商 店 
可 以 通过 观察 页 面 互 动 的 数据 ( 比如 滚动 、 点 击 和 悬浮 ) 来 调整 网 页 设计 。 比 
如 ， 易 趣 对 网 页 的 不 同 部 分 进行 了 几 千 项 试验 ， 以 决定 最 优 的 布局 和 其 他 页 面 
特性 ， 从 页 面 导 航 到 图 片 规格 的 大 小 。 

3. 运营 

1 ) 绩效 透明 

零售 商家 可 以 每 日 分 析 绩 效 、 店 铺 销售 、 库 存单 元 销售 及 每 位 员工 的 销售 
额 。 如 今 ， 这 些 分 析 系 统 更 加 趋 于 实时 。 商 家 能 够 通过 收 款 台 观察 准确 度 、 每 
小 时 交易 ， 以 及 客服 质量 ( 顾客 投诉 以 及 调查 满意 度 )。 虽 然 这 个 行业 已 经 广 
泛 采 用 基础 绩效 汇报 ， 仍 有 更 加 频繁 、 迅 速 和 颗粒 化 的 趋势 ， 人 允许 管理 者 对 运 
行情 况 做 出 更 加 及 时 和 具体 的 调整 。 

2 ) 劳动 投入 优化 

改善 运营 的 另 一 个 技术 是 劳动 投入 优化 、 自 动 的 时 间 考 勤 记录 和 更 好 的 劳 
动 调度 。 这 项 技术 可 以 更 准确 地 预测 对 员工 的 需求 ， 特 别 在 高 峰 期 ， 从 而 避免 
生产 能 力 问题 。 因 为 店铺 劳动 力 大 约 代表 了 商家 平均 固定 成 本 的 30%, 使 用 
这 项 技术 将 会 十 分 有 意义 。 

4. 供应 链 

1 ) 存货 管理 

对 多 个 数据 库 进行 数据 挖掘 高 级 分 析 将 会 提供 更 多 的 细节 信息 ， 大 数据 能 
够 进一步 改善 商家 存货 管理 。 最 佳 的 存货 管理 在 库存 层面 提供 充分 的 透明 度 ， 
和 自动 补 货 过 程 相 连 的 条 形 码 系统 则 减少 了 销售 一 空 的 失误 的 可 能 性 。 主 要 的 
零售 商 通过 合并 多 个 数据 库 ( 比如 销售 历史 、 天 气 预报 和 季节 性 销售 周期 ) 来 
提高 存货 预测 能 力 。 更 好 的 存货 管理 可 以 降低 商家 的 转 货 标准 ， 因 为 供应 商 和 
需求 信号 联系 更 加 密切 ， 还 会 减少 因为 库存 中 断 造成 的 销售 损失 。 
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2 ) 配送 和 物流 优化 

主要 零售 商 也 在 使 用 有 GPS 功能 的 大 数据 远程 信息 处 理 系统 ( 比如 远程 
方位 报告 ) 对 运输 进行 优化 处 理 ， 并 使 用 路 径 优 化 功能 提高 车 队 和 配送 管理 水 
平 。 交 通 分 析 法 可 优化 燃料 效率 ， 实 施 预防 性 维护 ， 督 促 司 机 规范 行为 和 优化 
行车 路 径 。 

3 ) 信息 供应 商 协商 

在 大 数据 的 世界 中 ， 主 要 零售 商 能 够 分 析 消 费 者 信 好 和 购买 行为 ， 从 而 帮 
助 与 供应 商 进行 谈判 。 他 们 可 以 用 价格 数据 和 交易 数据 ， 将 协商 的 特许 权 集 中 
在 关键 产品 上 。 考 虑 到 销售 商品 的 费用 占据 了 最 大 份额 的 零售 商店 费用 ， 此 类 
的 大 数据 应 用 将 带 来 重大 益处 。 


和 2.4.2 ”制造 业 


制造 行业 是 大 数据 早期 和 重度 使 用 者 ， 在 电脑 诞生 之 日 就 开始 使 用 信息 
技术 和 自动 化 技术 来 设计 、 制 造 和 配送 产品 ， 目 的 是 提高 产品 质量 和 性 能 。 在 
20 世纪 90 年 代 ， 制 造 业 公司 获得 了 惊人 的 年 度 生产 能 力 增长 ， 因为 运行 的 改 
进 提升 了 制造 过 程 的 效率 ， 也 提高 了 制造 产品 的 质量 。 制 造 商 还 优化 了 全 球 运 
行 和 管理 ， 将 产品 外 包 给 成 本 更 加 低廉 的 地 区 。 相 对 于 绝 大 多 数 行业 ， 制 造 业 
相对 已 是 非常 高 效 ,但 是 大 数据 仍然 能 够 提供 另 一 波 重大 的 制造 业 升 级 (James 
et al., 2011 )。 

1. 产 品 设计 的 研究 和 开发 

大 数据 的 使 用 将 会 加 速 产 品 的 开发 ， 帮 助 设计 人 员 回 到 最 重要 和 最 有 价值 
的 产品 特性 一 其 基础 是 具体 的 消费 者 投入 和 减少 生产 费用 的 设计 ， 利 用 消费 
者 的 远见 ， 通 过 公开 创新 的 方式 减少 研发 成 本 。 

1) 产品 生命 周期 管理 

在 过 去 十 年 中 ,制造 企业 为 了 管理 产品 生命 周期 而 采用 了 IT 系统， 包括 
电脑 辅助 的 设计 、 工 程 、 制 造 、 产 品 开 发 管理 工具 和 数字 制造 。 然 而 这 些 系统 
生成 的 大 数据 集 总 是 受 限 于 它们 各 自 的 系统 之 内 。 制 造 商 如 果 建 立 起 产品 生命 
周期 管理 平台 PLM ( Product Lifecycle Management )， 将 多 种 系统 的 数据 集 整 
合 在 一 起 ， 让 有 效 和 一 致 的 合作 成 为 可 能 ， 将 会 抓 住 非常 重要 的 大 数据 技术 创 
造 更 多 的 价值 。 比 如 ，PLM 可 以 为 “共同 创造 ”提供 平台 ， 将 外 部 和 内 部 的 
投入 综合 起 来 创造 新 产品 。 这 在 航空 航天 行业 将 会 格外 有 用 ， 因 为 该 领域 的 产 
品 往往 由 全 世界 数 百 家 供应 商 提供 的 成 千 上 万 个 零件 组 装 起 来 。 在 此 情况 中 ， 
原始 设备 制造 商 和 供应 商 一 同 进行 设计 将 会 有 巨大 的 价值 。PLM 平台 还 能 大 
大 帮助 设计 阶段 的 试验 ,设计 师 和 制造 工程 师 能 够 以 快速 低廉 的 方式 分 享 数据 ， 
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建立 模拟 条 件 测试 不 同 的 设计 方案 、 部 件 和 供应 商 的 选择 ， 以 及 相关 的 制造 成 
本 。 因 为 设计 阶段 做 出 的 决定 往往 占据 制造 费用 的 80%， 这 样 的 做 法 非常 有 
意义 。 

高 级 制造 行业 的 主要 公司 已 经 开始 运用 数据 和 控制 实验 的 协作 使 用 。 丰 
田 、 菲 亚 特 和 尼桑 都 将 新 模型 开发 时 间 削 减 了 30%-~50% ; 丰田 声称 在 建立 起 
第 一 个 实体 模型 之 前 已 经 减少 了 80% 的 缺陷 。 

2 ) 评估 设计 

通过 市 场 调研 获得 消费 者 的 投入 和 贡献 是 产品 设计 过 程 的 常见 组 成 部 分 ， 
但 是 很 多 制造 商 还 没有 实现 从 越 来 越 多 的 消费 者 数据 中 系统 地 提取 出 关键 的 建 
NX, 改善 已 有 设计 ， 形 成 新 模型 和 产品 变种 的 技术 标准 。 最 优秀 的 制造 商 进行 
联合 分 析 ， 试 图 发 现 消费 者 在 多 大 程度 上 愿意 为 某 些 产 品 特性 付费 ， 理 解 哪些 
特性 对 于 市 场 成 功 至 关 重 要 。 此 外 ， 这 些 公司 还 从 销售 终端 的 数据 和 客户 反馈 
挖掘 额外 的 量化 的 消费 者 意见 。 制 造 商 开 始 挖掘 的 新 数据 来 源 包括 社交 媒体 上 
的 消费 者 点 评 ， 还 有 描述 实际 产品 使 用 的 传感器 数据 。 

3 ) 开放 创新 

产品 研发 和 产品 创新 以 回应 新 的 客户 需求 ， 制 造 商 们 越 来 越 依赖 通过 新 渠 
道 获得 外 部 投入 。 随 着 Web 2.0 的 到 来 ， 一 些 制造 商 开 始 邀 请 外 部 利益 依 关 方 
提出 创新 的 想法 甚至 通过 网 络 平台 共同 研发 产品 。 生 活 消费 品 制造 公司 〈 比如 
卡 夫 和 宝洁 ) 经 常 征 求 消费 者 的 意见 ， 并 与 外 部 专家 合作 ， 包 括 学界 和 业界 的 
研究 者 。 进 入 21 世纪 ， 宝 洁面 临 研发 成 本 上 涨 和 回报 降低 的 难题 。 作 为 回应 ， 
宝洁 公司 设立 了 开放 创新 项 目 ， 使 用 InnoCentive ( 创新 中 心 ) 一 个 基于 
网 络 的 平台 ， 公 开征 集 专家 对 公司 面临 的 技术 困难 提出 解决 方案 。 如 今 ， 超 
过 半数 的 新 产品 都 有 来 自 公 司 外 部 的 设计 因素 。 宝 洁 的 研发 生产 率 高 达 60%, 
而 研发 的 收益 份额 从 4.8% 降 至 3.4%。 这 些 开 放 创新 项 目的 确 非常 成 功 ， 但 是 
一 个 关键 问题 在 于 如 何 将 真正 有 效 的 设想 从 大 量 建议 中 有 效 地 提取 出 来 。 这 项 
使 命 可 以 由 大 数据 技术 帮助 解决 ， 比 如 自动 算法 。 

通过 大 数据 进行 的 开放 创新 还 可 以 延伸 到 更 加 高 端的 产业 。 比 如 宝马 公司 
创建 了 “创意 管理 系统 ”以 帮助 评估 那些 来 自 “ 虚 拟 创 新 机 构 ” 的 创意 。 这 将 
识别 高 潜力 创意 的 时 间 缩 短 了 一 半 ， 也 减少 了 评估 创意 可 行 性 的 决策 时 间 。 结 
果 是 公司 每 年 从 开放 创意 平台 甄选 出 二 至 三 个 设计 进入 其 新 品 模型 中 。 这 种 创 
新 方法 额外 的 收益 是 在 这 些 创意 活动 的 参与 者 中 形成 更 高 的 品牌 效应 ， 以 及 让 
这 些 创新 更 加 广为人知 的 光环 效应 。 需 求 的 易 变 性 是 制造 商 需要 解决 的 关键 问 
题 。 零 售 商 客户 努力 迫使 供应 商 增加 弹性 和 反应 性 ， 其 原因 在 于 消费 者 分 散 的 
和 不 断 变化 的 偏好 。 其 他 的 趋势 ， 诸 如 采用 促销 和 定价 策略 ， 只 会 让 供应 商 面 
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对 更 严重 的 易 变 性 。 

制造 商 可 以 充分 利用 自己 的 数据 提高 对 于 需求 的 预测 以 及 供给 的 规划 。 但 
是 ， 如 同 在 其 他 领域 显示 的 ， 当 公司 能 够 将 其 他 来 源 的 数据 整合 在 一 起 一 一 包 
括 零售 商 数据 ， 比 如 促销 数据 、 产 品 投放 数据 和 库存 数据 ， 将 会 释放 出 更 大 的 
价值 。 通 过 应 用 整 条 价值 链 上 的 数据 ， 制 造 商 可 以 让 大 起 大 落 的 订单 模式 变 得 
平缓 。 这 样 做 的 益处 可 以 蔓延 到 价值 链 的 上 下 端 ， 实 现 更 有 效 的 现金 使 用 ， 提 
供 更 高 水 平 的 服务 。 最 优秀 的 商家 还 能 加 快 规划 周期 的 频率 ， 使 它们 和 生产 周 
期 保持 同步 。 事 实 上 ， 一 些 商 家 已 经 开始 采用 实时 数据 调整 生产 量 。 其 他 则 与 
零售 商 协作 ， 使 用 限时 折扣 ， 在 店铺 层面 调整 需求 量 。 

2. 生产 

可 以 提高 生产 效率 的 大 数据 工具 将 虚拟 技术 应 用 到 在 生产 过 程 中 生成 的 
海量 数据 。 物 联网 的 普及 也 帮助 制造 商 使 用 实时 的 传感器 数据 来 追踪 部 件 ， 检 
测 机 械 装置 ， 指 导 实 际 操作 。 

1) 虚拟 数字 工厂 

制造 商 可 以 从 产品 研发 和 历史 上 的 生产 数据 ( 比如 订单 数据 、 机 器 性 能 
数据 ) 获取 有 用 的 信息 ， 使 用 更 为 先进 的 计算 机 方法 为 整个 制造 过 程 建 立 数字 
模型 。 这 样 的 虚拟 “数字 工厂 ”包括 了 所 有 机 器 、 人 工 、 固 定 装置 ， 能 够 用 来 
设计 和 模拟 效率 最 高 的 生产 系统 ， 从 工厂 布局 到 特定 产品 的 生产 步骤 排序 。 主 
要 的 汽车 生产 商 已 经 开始 使 用 这 项 技术 优化 他 们 新 厂房 的 生产 配置 布局 ， 特 别 
是 当 比 如 空间 和 配 机 设备 存在 许多 限制 的 时 候 。 炼 钢 厂 可 以 使 用 模拟 程序 为 整 
个 资产 组 合 建 模 ， 迅 速 检测 出 改进 方法 ， 这 可 以 将 交付 可 靠 性 提升 20%~30%。 
汽车 制造 、 航 空 航天 和 国防 制造 业 的 案例 研究 显示 ， 这 些 先进 的 模拟 程序 能 够 
将 生产 图 的 变动 以 及 工具 设计 和 建设 费用 降 到 最 低 。 

2 ) 传感器 驱动 的 运营 

物 联 网 应 用 的 大 量 增加 让 制造 商 可 以 嵌入 来 自 供给 链 和 生产 过 程 中 联网 
传感器 的 高 度 颗 粒 化 的 实时 数据 ， 由 此 优化 公司 的 运行 。 这 些 数据 让 全 面 的 过 
程 检 测 和 优化 成 为 可 能 ,减少 浪费 ,将 产量 或 吞吐 量 最 大 化 。 它 们 甚至 可 以 实 
现 一 些 迄 今 尚 不 可 能 的 制造 业 创新 ， 包 括 纳米 制造 技术 。 

使 用 来 自传 感 器 网 络 的 大 数据 的 最 佳 范例 来 自流 程 制造 业 ， 比 如 石油 治 
炼 。 数 十 年 来 ,石油 产业 一 直 使 用 大 量 实时 数据 以 追求 始终 难以 实现 的 沉淀 物 。 
现在 该 行业 将 大 数据 应 用 到 生产 方面 ， 对 油田 进行 自动 、 远 程 监控 。 这 个 方法 
的 好 处 是 削减 运行 和 维护 成 本 ( 可 占 浪费 开支 的 60% )。 在 数字 油田 中 ， 单 一 
系统 便 可 以 从 吸油 井 管 流 检测 器 、 地 震 传感器 、 卫 星 遥 测 系统 获得 数据 。 这 些 
数据 会 被 传输 到 非常 大 的 数据 库 ， 转 而 到 检测 和 调整 参量 的 实时 运行 中 心 ， 优 
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化 产量 , 缩短 故障 时 间 。 经 验 显 示 , 数字 油田 能 够 减少 10%~25% 的 运行 成 本 ， 
还 能 提高 5% 或 更 多 的 生产 能 力 。 

3. 营销 和 销售 / 售后 服务 

制造 业 公司 使 用 来 自 客户 反馈 的 数据 ， 不 仅 为 了 提高 营销 和 销售 ， 也 为 了 
做 出 更 加 明智 的 产品 研发 决策 .将 传感器 植 人 产品 的 技术 在 经 济 上 越 来 越 可 行 ， 
将 会 产生 大 量 关于 产品 实际 应 用 和 效能 的 数据 。 由 此 ， 制 造 商 可 以 获得 关于 产 
品 缺 陷 的 实时 数据 ， 迅 速 对 生产 过 程 做 出 调整 。 进 行 产 品 研发 时 可 以 应 用 这 些 
数据 进行 重新 设计 和 新 产品 开发 。 许 多 建设 设备 制造 商 已 经 将 传感器 伐 入 他 们 
的 产品 ， 提 供 实时 数据 了 解 实际 使 用 和 使 用 模式 ， 让 制造 商 能 够 改善 需求 预测 
以 及 未 来 的 产品 开发 。 

还 有 使 用 大 数据 提高 营销 、 销 售 和 售后 服务 的 机 遇 。 如 同 许多 部 门 已 经 实 
现 的 ， 这 些 机 遇 从 消费 者 细 分 到 使 用 分 析 工 具 提 高 销售 人 员 的 效益 。 一 种 重要 
性 日 益 凸 显 的 应 用 是 ， 用 来 自 实 际 使 用 的 传感器 数据 提高 服务 质量 。 比 如 ， 分 
析 来 自 复杂 产品 内 置 传感器 的 数据 ， 可 以 让 飞机 、 电 梯 、 数 据 中 心 处 理 器 的 制 
造 商 开发 出 智能 预防 性 维护 服务 套餐 。 这 样 维修 技工 甚至 可 以 在 用 户 发 现 一 个 
部 件 失灵 之 前 就 被 派 遗 去 处 理 问 题 。 

4. 管理 

海量 数据 扩大 了 算法 和 以 机 器 为 媒介 分 析 的 运筹 领域 。 例 如 ， 在 部 分 制造 
企业 ， 算 法 对 生产 线 的 传感器 信息 进行 分 析 ， 形 成 了 自我 调节 的 流程 ， 从 而 减 
少 了 浪费 ， 避 免 了 代价 高 昂 ( 有 时 十 分 危险 ) 的 人 为 干预 ， 最 终 提 升 产 量 。 在 
先进 的 “数码 化 ”油田 ， 仪 表 不 时 读 取 有 关 井 口 状况 、 管 道 和 机 械 系统 的 各 类 
数据 。 这 些 信 息 由 一 组 计算 机 进行 分 析 ， 并 将 结果 输入 实时 运营 中 心 。 后 者 则 
调整 油 量 以 优化 生产 和 最 大 限度 地 缩短 停机 时 间 。 一 家 大 型 石油 公司 因此 减少 
了 10%~25% 的 运营 成 本 和 员工 成 本 ,产量 提高 了 5%。 

大 数据 时 代 还 可 以 形成 新 的 管理 原则 。 在 专业 化 管理 的 早期 , 企业 领导 人 
发 现 最 小 有 效 规模 是 成 功 的 关键 决定 因素 。 同 样 ， 对 于 能 够 捕捉 更 多 更 好 的 数 
据 ， 而 且 还 能 够 高 效 化 、 规 模 化 利用 它们 的 企业 来 说 ， 竞 争 优势 将 不 期 而 至 。 


m5 物 联网 有 || 


物 联 网 (Internet of Things, IOT ) 的 概念 作为 下 一 次 信息 技术 升级 的 关键 
词 而 广为人知 ， 它 是 以 信息 感知 为 特征 的 物 联 网 ， 被 称 为 世界 信息 产业 的 第 三 
次 革命 ， 目 标 是 将 现 有 的 、 虚 拟 的 互联 网 拓展 到 现实 世界 ， 使 得 任何 真实 世界 
的 对 象 都 可 以 自动 加 入 网 络 ， 从 而 在 全 球 范 围 内 实现 追踪 和 查询 。 
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物 联 网 涵盖 了 多 种 技术 和 研究 领域 一 一 诸如 自动 识别 、 无 线 传输 、 综 合 传 
感 、 分 布 式 数据 处 理 等 。 温 家 宝 总 理 在 十 一 届 全 国人 大 三 次 会 议 上 作 的 《政府 
工作 报告 ) 中 对 物 联网 的 定义 是 : 物 联网 是 通过 信息 传 感 设备 ,按照 约定 的 协议 ， 
把 任何 物品 与 互联 网 连接 起 来 , 进行 信息 交换 和 通讯 , 以 实现 智能 识别 、 定 位 、 
跟踪 、 监 控 和 管理 的 一 种 网 络 。 它 是 在 互联 网 基础 上 延伸 和 扩展 的 网 络 。 

物 联网 所 需 的 体系 结构 分 别 为 :射频 识别 、 传 感 器 技术 、 艇 入 式 逻 辑 对 象 、 
对 象 的 特 设 网 络 、 基 于 互联 网 的 信息 基础 设施 。 

实现 物 联 网 的 潜在 好 处 是 多 方面 的 ， 既 为 个 人 也 为 企业 。 一 些 最 有 希望 的 
应 用 包括 : 改善 全 球 供应 链 物 流 的 管理 、 假 冒 产 品 检测 、 生 产 制造 自动 化 、 知 
能 家 居 和 家 电 、 电 子 政务 ( 电子 公文 和 货币 )， 以 及 电子 医疗 ( 病人 监测 和 病 
人 记录 )( Lopez et al., 2012 ) 。 


图 2-9 物 联网 示意 图 ? 


物 联网 已 经 成 为 我 国 的 战略 性 新 兴 产 业 。 通 过 物 联网 可 在 传统 工业 、 生 产 
安全 、 工 程控 制 、 交 通 管理 、 城 市 管理 、 农 牧 林 业 生 产 、 商 业 流 通 等 多 领域 建 
立 随时 能 在 物体 和 物体 之 间 沟 通 的 智能 系统 ， 有 利于 推进 信息 化 的 进程 ， 并 对 
我 国 的 各 种 产业 产生 重要 的 影响 。 


和 2.5.1 物 联 网 的 基础 


1. 成 熟 的 传 感 技 术 
随 着 微 电 子 技术 的 发 展 ， 涉 及 人 类 生活 、 生 产 、 管 理 等 方方面面 的 各 种 


中 资料 来 源 : 中 国 移动 物 联 网 实验 室 。 网 址 : http:/www.iot.10086.cn/, 
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传感器 已 经 比较 成 熟 ， 例 如 常见 的 无 线 传感器 (WSN )、 无 线 射频 识别 (Radio 
frequency identification devices )、 电 子 标签 等 。 其 中 ， 无 线 传感器 可 以 提供 关 
于 多 种 环境 特点 的 持续 数据 流 ， 注 入 物 联网 。 其 他 更 加 高 级 的 设备 包括 通过 传 
感 设 备 识别 物体 ， 比 如 通过 电子 图 像 处 理 技巧 。 个 人 计算 机 和 智能 材料 的 使 用 
大 大 提高 了 人 类 和 物理 环境 之 间 的 交互 性 。 生 物 识 别 技术 能 够 用 来 实现 物 联 网 
的 安全 性 和 个 人 化 。 

2. 宽带 互联 网 络 

网 络 发 展 到 今天 ， 已 经 真正 进入 到 “信息 高 速 公路 ”时 代 ， 使 得 我 们 可 以 
以 各 种 方式 接 入 到 网 络 ， 如 光纤 、 宽 带 、WIFI、 无 线 个 域 网 ( Zigbee ) 等 。 

3. 高 速 信息 处 理 能 力 

计算 机 软件 技术 迅猛 发 展 , 计算 机 的 存储 能 力 、 计 算 能 力 还 在 进一步 增强 ， 
基于 海量 信息 收集 和 分 类 处 理 的 能 力 大 大 提高 。 


上 2.5.2” 物 联网 的 数据 类 型 


物 联 网 应 当 实现 对 信息 的 获取 和 精确 控制 ， 而 绝 非 信 息 的 大 量 耗 散 结构 。 
通常 来 看 ， 物 联网 所 需 的 数据 分 为 以 下 五 类 :识别 数据 、 位 置 数 据 、 环 境 数 据 、 
历史 数据 和 描述 性 数据 ( Cooper et al., 2009 )。 

1. 射频 识别 

射频 识别 指 的 是 使 用 无 线 电 波 进行 物品 的 识别 和 追踪 ， 这 项 技术 正在 变 得 
寻常 可 见 。RFID ( 无 线 射频 识别 ) 的 标签 可 以 置 人 物品 中 , 用 来 传递 和 接受 信 
息 。RFID 源 自 二 战 时 期 的 技术 革新 。 最 早 的 商业 应 用 始 自 20 世纪 80 年 代 ， 标 
准 在 20 世纪 90 年 代 出 现 ， 更 广泛 的 应 用 一 直 延 至 今日 ， 成 为 日 常生 活 的 一 
部 分 。 

2. 地 址 / 唯一 识别 符 

物 联网 的 物体 需要 用 唯一 的 TP 地 址 识别 。 随 着 物 联网 的 范围 扩大 ， 所 需 
的 识别 符 将 会 增长 。 正 是 由 于 物 联 网 的 应 用 ,IPv6 才 被 选 为 IPv4 的 蔡 代 物 一 一 
后 者 的 他 地址 正在 耗 尽 ， 而 前 者 使 用 126 比特 的 地 址 ， 容 量 远 远大 于 只 使 用 
32 比特 的 IPv4。 

通过 多 级 层次 命名 的 方法 可 以 提高 识别 能 力 。 全 球 各 地 的 局 域 识 别 符 都 
受到 域名 的 限制 ， 就 像 目前 互联 网 中 域名 的 使 用 方式 那样 。 互 联网 已 经 开发 
出 完善 的 命名 方法 ， 由 互联 网 地 址 编码 分 配 机 构 (Internet Assigned Numbers 
Authority ) 审查 全 球 的 IP 地 址 分 配 、 跟 区 管理 、 域 名 以 及 其 他 网 络 协议 相关 
的 任务 。 
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3. 关于 物品 、 过 程 和 系统 的 描述 性 数据 

物 联 网 的 价值 主要 来 自 网 络 中 的 物体 、 过 程 和 系统 所 记录 的 数据 或 是 元 数 
据 。 元 数据 是 关于 数据 的 数据 ， 对 于 使 用 者 寻找 和 获得 合适 的 数据 至 关 重 要 。 
我 们 能 够 这 样 区 分 二 者 : 举例 来 说 ， 物 品 “24.672.673.982” 数 据 是 猫 、 黑 色 、 
有 绒毛 的 , 相对 应 的 元 数据 则 是 类 型 、 颜 色 和 姓名 。 数 据 的 存储 、 表 现 、 验 证 ， 
如 何 保证 数据 检索 和 更 新 的 最 大 效率 和 不 可 否认 性 ， 都 是 研究 者 关心 的 话题 。 
物品 需要 能 够 自 描述 ， 并 且 能 够 报告 动态 特征 ， 以 便于 数据 最 大 化 的 分 享 。 

需要 存储 的 不 只 是 基本 物品 数据 ， 还 有 过 程 数 据 和 系统 数据 。 系 统 和 过 程 
可 以 被 视 为 特殊 种 类 的 物品 ， 属 性 更 加 复杂 。 存 储 物品 、 过 程 和 系统 的 数据 十 
分 重要 ， 这 样 用 户 才能 掌握 如 何 利 用 物 联网 所 提供 的 服务 和 设备 。 比 如 ， 在 一 
户 住宅 中 , 网 络 可 以 收集 一 段 时 间 内 用 电量 的 环境 数据 , 这 是 关于 物品 的 数据 。 
过 程 数 据 则 是 计算 该 段 时 间 内 用 电量 的 峰值 和 低位 。 然 而 ， 这 样 的 一 个 过 程 或 
服务 可 能 只 是 和 物 联 网 所 提供 的 成 千 上 万 个 其 他 过 程 一 样 ， 难 以 定位 。 这 种 情 
况 下 ， 关 于 过 程 和 自 描述 数据 的 元 数据 以 及 标 引 系统 就 很 有 用 。 

4. 定位 数据 和 无 处 不 在 的 环境 数据 

定位 数据 能 为 一 个 特定 标签 物品 提供 位 置信 息 ， 无 论 在 全 球 定位 系统 中 
(GPS ) 或 是 地 方 定位 系统 中 。GPS 依靠 多 个 卫星 将 信号 传递 给 调节 单元 ， 物 
品 可 以 通过 三 角 测 量 确定 自己 的 位 置 。 地 方 定位 系统 有 类 似 的 运行 机 制 ， 只 是 
覆盖 面 更 小 。 地 方 技 术 的 例子 是 蜂窝 式 基站 、 无 线 网 访问 点 和 电视 信号 塔 。 地 
方 定位 系统 可 以 与 GPS 合作 ， 有 时 还 可 以 替代 后 者 。 它 们 可 以 用 于 建筑 或 楼 
宇 密集 区 。 定 位 数据 组 成 可 静 可 动 ， 它 将 会 在 物 联网 中 发 挥 重要 作用 。 互 联网 
中 一 种 新 型 信息 是 普遍 的 定位 信息 。 它 是 关于 环境 的 全 部 信息 ， 并 不 显眼 , 但 
是 能 够 改善 和 帮助 我 们 与 周围 环境 的 相互 作用 。 这 个 信息 也 依赖 于 定位 。 现 在 
已 有 的 不 仅 是 物 联 网 的 概念 ， 还 有 internet of place 一 一 所 有 关于 某 个 地 点 的 特 
定 信息 都 能 被 该 地 区 的 设备 和 用 户 迅 速 获得 。 最 终 所 有 的 地 方 都 被 纳入 这 个 网 
络 。 与 此 相关 的 技术 包括 移动 计算 、 地 理 信息 系统 以 及 环境 技术 。 

5. 传感器 数据 

数据 进入 物 联 网 的 路 径 之 一 是 通过 无 线 传 感 网 络 ( WSN )。 电 子 技术 的 进 
步 使 得 建立 一 个 WSN 变 得 相对 容易 ， 以 此 可 用 来 检测 各 种 各 样 的 环境 现象 ， 
比如 天 气 、 温 度 和 噪音 。 个 域 网 联盟 ( Zigbee Alliance ) 已 经 生产 出 标准 支持 
WSN 的 装配 。 这 项 技术 中 涌现 了 不 同 的 、 有 趣 的 研究 方面 。 比 如 ， 数 据 收集 
是 持续 性 的 、 间 隔 性 的 ， 还 是 仅 在 查询 时 才 进 行 ? 其 他 的 问题 还 有 ， 我 们 如 何 
保证 有 效率 地 获得 具有 代表 性 的 样本 ， 我 们 应 该 将 多 少数 据 存档 ?传感器 和 网 
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络 技术 让 迅速 抓 取 海 量 数据 成 为 可 能 ， 但 是 查询 并 且 控 掘 数据 可 能 出 现 问题 ， 
特别 是 当 需 要 进行 实时 的 分 析 。 目 前 已 经 提出 一 些 技术 来 解决 以 上 的 问题 。 

6. 历史 数据 

物 联网 的 传感器 可 以 收集 拍 字 节 甚至 更 大 量 的 数据 。 这 些 数据 可 能 需要 进 
行 存储 。 随 着 时 间 流 逝 ， 这 些 数据 变 成 了 历史 数据 。 数 据 的 体 量 成 为 了 难题 。 
需要 做 出 应 用 为 导向 的 设计 : 尔后 如 何 保有 数据 ?哪些 数据 应 该 保留 ? 一些 将 
会 保留 在 活跃 的 数据 货 栈 中 ， 便 于 频繁 的 查询 ， 另 一 些 的 需求 量 较 小 ， 可 以 存 
储 在 不 太 容 易 获 得 的 地 方 。 对 数据 存储 的 问题 已 经 引起 注意 ， 比 如 数据 丢失 ， 
不 准确 的 记录 ， 缺 失信 息 以 及 对 废弃 技术 的 依赖 。 数 据 库 社区 提供 了 一 些 解决 
方案 以 实现 更 加 有 效 的 数据 存储 。 这 些 方案 也 适用 于 物 联网 。 

7. 物理 模型 

物 联网 的 应 用 需要 物理 模型 ， 以 便 能 够 在 运算 法 则 中 使 用 。 物 理 模型 是 现 
实 世 界 的 模板 ， 比 如 重力 、 力 量 、 声 音 和 磁性 。 呈 现 这 些 模 式 可 以 提供 建 模 和 
物理 场景 的 模拟 物 。 物 理 模型 目前 在 电脑 游戏 和 电脑 辅助 的 工程 领域 内 十 分 普 
及 ， 将 它们 合并 进 物 联网 将 会 提高 它 的 功能 。 

8. 监控 所 用 的 执行 和 命令 数据 

物 联网 将 会 被 用 来 远程 控制 设备 ， 这 需要 设备 制动器 状态 的 反馈 。 特 别 是 
因为 相关 应 用 的 实时 性 特质 ， 如 何 表现 制动器 状态 成 为 了 一 个 挑战 。 为 了 支持 
互联 网 制动器 越 来 越 多 的 使 用 ， 需 要 的 技术 革新 是 微型 化 和 节能 电子 产品 ， 后 
者 包括 低 耗 微型 计算 机 和 传播 方法 、 能 量 采 集 转换 器 、 改 进 的 微型 电池 。 

一 些 进入 物 联网 的 数据 是 控制 设备 的 指令 数据 。 比 如 ， 一 个 人 可 能 突然 在 
半 个 小 时 之 内 回 到 家 中 ， 和 希望 打开 暖气 做 好 准备 。 用 户 需要 在 物 联网 中 控制 设 
备 ， 这 则 需要 一 种 特殊 的 语言 。 物 联网 中 的 不 同系 统 可 能 开发 出 不 同 产品 ， 并 
具备 不 同 的 源头 ， 因 此 并 不 存在 同样 的 指令 界面 。 需 要 努力 将 指令 / 控制 数据 
和 界面 进行 标准 化 操作 。 


上 2.5.3” 物 联网 的 最 新 发 展 和 应 用 


在 物 联 网 的 实际 应 用 层面 ， 个 人 定位 数据 是 至 关 重 要 的 概念 ， 是 信息 数 
据 系统 的 基础 。 它 指 的 是 一 个 人 或 一 部 设备 的 实时 位 置 ， 通 常 表现 为 一 个 数字 
编码 ， 可 以 在 覆盖 全 球 的 坐标 网 (Grid) 上 标记 出 个 体 的 所 在 位 置 。 最 早 的 个 
人 定位 数据 来 自信 用 卡 和 借 记 卡 的 支付 信息 ， 它 与 刷卡 所 用 的 POS 终端 ( 通 
常 是 在 固定 的 地 点 ) 显示 的 个 人 身份 信息 相连 。 相 似 的 数据 来 源 是 发 生 交易 的 
AIM。2008 年 ， 全 球 范围 内 和 了 POS 设备 相连 的 离线 交易 为 9000 万 次 到 1 亿 
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次 (James et al., 2011 )。 

随 着 手机 使 用 者 数量 的 增加 ,使 用 基站 信号 对 这 些 设 备 的 位 置 进行 三 角 测 
量变 得 愈 发 普遍 。 这 项 技术 能 够 识别 将 近 50 亿 使 用 者 的 方位 。 智 能 手机 的 使 
用 也 在 增加 。 在 2010 年 ， 同 时 在 线 使 用 手机 的 人 数 达 6 亿 ， 这 个 数字 预计 将 
会 有 20% 的 年 增长 率 。 智 能 手机 带 有 GPS 和 无 线 上 网 的 功能 ， 这 两 项 技术 都 
可 以 确定 手机 的 所 在 位 置 ， 使 得 个 人 定位 数据 更 加 准确 、 更 容易 获得 ， 特 别 对 
于 手机 实用 程序 的 开发 者 而 言 。 

根据 麦肯锡 全 球 研究 所 的 报告 ，2009 年 全 球 范围 内 的 个 人 定位 数据 总 量 
达到 1 拍 字 节 ( 相当 于 2 的 50 次 方 )， 并 以 20% 的 速度 增长 。 装 有 GPS 功能 
的 智能 手机 的 爆炸 性 增长 是 这 个 增长 的 首要 推动 力 。 值 得 注意 的 是 ， 相 对 于 医 
疗 卫生 领域 所 用 的 图 像 或 是 视频 ， 确 定 方位 的 数据 量 不 过 几 个 字 节 ， 这 意味 着 
每 个 字 节 产生 的 价值 远 远 高 于 前 者 。 

1. 个 人 层面 的 应 用 

1 ) 智能 路 线 选 择 

基于 实时 交通 信息 的 智能 路 径 选 择 是 个 人 定位 数据 使 用 率 最 高 的 实际 应 
用 。 更 加 先进 的 导航 系统 能 够 实时 获得 交通 信息 ,包括 事故 、 道 路 施工 和 拥堵 
地 段 。 这 样 的 导航 系统 还 能 为 用 户 提供 最 新 的 个 人 兴趣 信息 和 天 气 状 况 。 职 能 
路 线 选 择 设备 不 仅 为 驾驶 人 提出 避 开 拥堵 地 点 的 建议 ， 还 能 将 位 置 和 行驶 信息 
传 回 一 个 中 心服 务 器 ， 更 加 准确 地 计算 拥堵 的 程度 。 


图 2-10 “谷歌 路 况 信息 发 布 系统 ? 


D 资料 来 源 : http://www.ditu.Google.com， 谷 歌 地 图 能 实时 反映 路 面 交 通 拥堵 状况 。 
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麦肯锡 预测 ， 到 2020 年 ， 知 能 路 径 选 择 的 全 球 价值 ( 以 时 间 和 燃料 节省 
为 形式 ) 将 达 5000 亿美 元 ， 这 相当 于 为 司机 们 节省 200 亿 小 时 ， 或 是 每 个 旅 
行者 每 年 节省 10~15 小 时 以 及 1500 亿 美元 的 油耗 ,这 些 结余 可 以 转化 为 减少 3.9 
亿 吨 碳 排 放 。 这 些 预 测 数字 意味 着 数字 地 图 和 实时 交通 信息 这 两 项 技术 的 充分 
开发 。 目 前 ， 大 多 数 发 达 国 家 已 拥有 数字 地 图 数据 ， 正 在 向 发 展 中 国家 普及 。 

2) 汽车 通讯 系统 

物 联网 在 汽车 行业 中 的 应 用 包括 了 使 用 “智能 物体 ”进行 全 面 检测 和 报 
告 一 一 从 胎 压 到 和 其 他 车 辆 之 间 的 距离 。RFID 技术 可 以 简化 汽车 的 生产 ， 改 
善 物流 , 增强 质量 管理 , 提高 售后 服务 。 汽 车 的 每 个 部 件 都 含有 制造 商 的 信息 、 
生产 时 间 、 地 点 、 序 列 号 、 型 号 、 产 品 编码 等 信息 ， 甚 至 可 以 显示 它们 在 车 辆 
中 的 具体 位 置 。 专 用 短程 通信 (Dedicated Short Range Communication ) ?还 可 
以 实现 更 高 的 比特 率 ,降低 和 其 他 仪器 相互 干扰 的 可 能 性 。 汽 车 对 汽车 (V2V ) 
以 及 汽车 对 基础 设施 ( V2I ) 通 讯 将 会 极 大 提升 智能 交通 系统 ( ITS ) 的 应 用 性 能 ， 
比如 车 辆 安全 和 交通 治理 ( Vermesan et al., 2009 )。 

在 未 来 几 年 内 ， 越 来 越 多 的 车 辆 将 会 配置 GPS 和 远程 信息 处 理 系统 ， 提 
供 一 系列 个 人 安全 和 监控 服务 。 一 项 已 有 的 例子 是 ， 通 用 电气 的 OnStar 服务 
能 传送 实时 车 辆 位 置 和 诊断 信息 给 中 心 监控 点 。 这 类 似 医疗 系统 中 的 远程 健康 
监测 ， 能 够 在 设备 需要 修理 或 软件 升级 的 时 候 提醒 司机 ， 或 是 在 紧急 情况 下 为 
车 辆 定位 。 

3 ) 手机 定位 服务 

手机 定位 服务 是 一 项 快速 发 展 的 技术 ,拓展 了 其 他 由 手机 提供 的 定位 服 
务 (LBS ) 的 范围 ， 比 如 追踪 儿童 和 家 属 的 安全 应 用 程序 。 已 有 的 例子 包括 
Foursquare (2011 年 4 月 用 户 已 达 800 万 人 ) 和 Loopt (2011 年 4 月 用 户 超过 
500 万 人 )。Loopt 于 2006 年 成 立 于 加 州 山 景 城 ， 是 一 个 智能 手机 下 载 使 用 的 
应 用 程序 ， 人 允许 使 用 者 在 好 友之 间 分 享 实 时 位 置信 息 、 状 态 消息 和 带 有 地 理 标 
签 的 照片 。 现 在 美国 所 有 主要 社交 网 站 都 提供 详细 地 图 信息 ， 可 以 显示 好 友 的 
位 置 、 正 在 做 什么 以 及 如 何 找到 他 们 。Loopt 的 主要 盘 利 来 自 地 理 标 识 的 广告 
和 促销 信息 。 

类 似 定位 服务 的 收益 模式 都 将 是 免费 服务 和 应 用 ( 广告 商 付费 ) 及 其 他 收 
入 的 组 合 ， 包 括 赞助 商 的 链接 ( 餐馆 、 酒 吧 和 其 他 兴趣 点 )。 


D 专用 短程 通信 和 是 在 车 辆 与 路 边 设备 之 间 进 行 的 无 线 通信 ， 也 就 是 运输 子 系统 中 的 车 辆 子 系统 与 道路 
子 系统 问 的 通信 。 
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[ S aN 
T 节目 讯息 ”比赛 活动 ” 电影 时 刻 
图 2-11 手机 定位 服务 2 


2. 组 织 层面 的 应 用 

1 ) 地 理 定位 广告 

地 理 定位 的 手机 广告 是 个 人 位 置 数据 获得 价值 的 最 常见 方式 之 一 。 例 如 ， 
消费 者 可 以 选择 接受 某 个 地 理 定位 广告 ,一 旦 接近 某 个 喜爱 的 商店 ,个 性 化 广 
告 就 会 出 现在 智能 手机 上 。 在 餐厅 里 就 餐 的 广告 用 户 可 能 会 接收 到 该 餐厅 发 来 
的 优惠 券 。 这 项 技术 可 以 基于 智能 手机 用 户 的 方位 或 目的 地 ， 提 供 关 于 最 近 的 
ATM、 和 餐厅 点 评 , 或 是 商店 促销 的 信息 。 

和 电视 、 平 面 广告 这 些 更 传统 的 广告 方式 相 比 ， 地 理 定位 广告 对 消费 者 的 
购买 决定 有 更 大 的 影响 ， 可 以 提高 销售 量 。 例 如 ，ShopAlerts 由 位 于 旧金山 和 
纽约 的 Placecast 公司 人 研发 ,是 一 款 定位 “推送 短信 ”产品 ,目前 已 有 包括 星巴克 、 
REI, AE 服装 、Northface 等 公司 使 用 该 产品 为 自己 揽 客 ， 在 全 球 范围 内 用 户 
达到 100 万 人 。 这 款 产品 在 美国 可 以 为 超过 90% 的 手机 定位 ， 该 公司 报告 称 
49% 的 访问 量 是 在 顾客 收 到 Shopalerts 的 短信 后 发 生 的 ， 而 另外 19% 的 短信 
起 到 了 提示 作用 (Sims, 2012 )。 

2 ) 电子 收费 

目前 的 电子 收费 产品 所 需要 的 专门 技术 成 本 十 分 昂贵 ,但 是 配备 GPS 功 
能 的 手机 的 普及 将 会 刺激 对 收费 设备 的 应 用 研发 ， 降 低 该 系统 的 成 本 。 举 例 来 
说 ， 一 部 手机 可 以 为 车 辆 和 收费 站 定位 ， 使 用 用 户 的 手机 账户 支付 费用 ， 不 再 
需要 单独 的 应 答 机 和 付款 账户 。 

3 ) 保险 定价 

个 人 定位 数据 和 汽车 信息 处 理 器 有 可 能 为 保险 公司 提供 更 加 准确 和 详细 


© 资料 来 源 : http:/labs.chinamobile.com/news/53955_p.4. 
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的 个 人 行为 信息 一 一 比如 投保 人 的 驾驶 习惯 。 这 些 信息 让 保险 公司 根据 个 人 的 
实际 行为 定价 ， 而 不 是 参考 笼统 的 人 口 统计 学 。 一 些 人 认为 基于 行为 的 保险 可 
以 减少 索赔 支出 ， 因 为 当 人 们 得 知 自己 的 行为 受到 监控 ， 其 行为 会 更 加 谨慎 。 
这 个 结论 有 待 于 验证 ， 但 有 一 点 可 以 肯定 : 根据 个 人 定位 数据 而 研发 的 技术 能 
够 帮助 保险 公司 设计 出 鼓励 安全 驾驶 的 服务 。 比 如 ， 保 险 公 司 可 以 提供 关于 天 
气 、 交 通 情况 、 高 危 停 车 场 以 及 道路 限 速 的 实时 警告 。 

4) 紧急 响应 

个 人 定位 数据 、 实 时 交通 信息 以 及 GPS 数据 传输 系统 可 以 让 执法 部 门 、 
火警 和 急救 车 更 快 、 更 有 效 地 执行 任务 。 这 些 技 术 让 紧急 行动 的 调度 员 能 够 迅 
速 识别 突 发 事件 报告 人 的 所 在 地 ， 保 证 行动 组 可 以 尽快 响应 ( 通过 智能 路 径 选 
择 )， 并 保证 他 们 在 危险 环境 中 的 自身 安全 。 

5 ) 城市 规划 

个 人 定位 数据 的 集合 分 析 能 够 在 宏观 层面 帮助 决策 ， 这 主要 体现 在 两 个 近 
异 的 领域 : 城市 规划 、 智 能 城市 领域 和 经 济 、 商 业 领域 。 

对 个 人 定位 数据 的 分 析 能 够 极 大 地 帮助 城市 规划 师 的 工作 。 通 过 分 析 道 路 
和 大 容量 公交 运输 建设 、 交 通 拥堵 的 缓解 方案 、 高 密度 开发 区 的 设计 ， 规 划 师 
的 决策 判断 能 力 将 会 得 到 提升 。 城 市 交通 和 发 展 规划 师 将 会 越 来 越 多 地 使 用 海 
量 信息 一 一 比如 高 峰 和 非 高 峰 期 交通 拥挤 地 段 的 流量 与 模式 、 购 物 趋势 一 一 来 
减少 拥堵 和 污染 物 的 排放 ( Ibarguen et al., 2009 )。 城 市 规划 师 将 会 深度 挖掘 和 
观察 大 量 数据 ,为 决策 提供 充分 翔实 的 背景 知识 ,从 而 做 出 更 加 明智 的 选择 一 一 
从 交通 信号 灯 的 摆 放 位 置 到 停车 空间 的 需求 。 新 加 坡 的 公共 交通 部 已 经 开始 使 
用 十 年 期 需求 预测 ( 部 分 基于 个 人 定位 数据 ) 来 规划 交通 需求 。 荷 兰 的 交通 局 
则 使 用 来 自 手机 的 个 人 定位 数据 预测 交通 和 行人 的 拥堵 情况 。 


和 2.5.4 发展 前 景 展望 


15 年 前 ， 美 国 最 庞大 的 数据 仓库 的 规模 只 有 数 TB， 且 只 有 像 沃尔玛 、 万 
事 达 这 些 极 少数 的 公司 才 拥 有 如 此 庞大 的 数据 。 而 如 今 ， 从 生活 中 的 购物 交易 
到 工业 上 的 生产 制造 ， 从 社交 网 络 媒体 信息 到 在 线 视频 图 像 资料 ， 从 企业 的 信 
息 管 理 系 统 到 政府 部 门 的 电子 政务 ， 都 有 着 大 量 的 数据 产生 。 当 TB 又 然 剧 增 
到 PB (1PB=1024TB )， 常 规 技术 显然 难以 应 对 需求 。 

2012 年 4 月 11 日 , 中国 英 特 尔 物 联 技术 研究 院 正式 成 立 。 计 划 在 未 来 5 
年 里 共同 投资 2 亿 元 人 民 币 ,着 力 攻克 智能 感知 、 传 输 技术 、 大 数据 处 理 技术 
和 共性 技术 基础 研究 等 核心 物 联网 技术 。4 月 12 日 ， 英 特 尔 科学 技术 中 心 首 
席 研 究 员 Mei Chen 和 英特尔 中 国 研究 院 首席 工程 师 吴 甘 沙 发 表 了 主题 为 “在 
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物 联网 时 代 驯 服 大 数据 ”的 演讲 ?。 

中 国 工程 院 院士 郎 贺 狂 断 言 ， 物 联网 所 带 来 的 产业 价值 要 比 互联 网 大 30 
倍 , 物 联 网 将 形成 下 一 个 上 万 亿 元 规模 的 高 科技 市 场 。 这 个 数据 来 自 于 美国 权 
威 咨询 机 构 弗 雷 斯 特 ( Forrester )， 后 者 预测 说 ， 到 2020 年 世界 上 物 物 互联 的 
业务 跟 人 与 人 通信 的 业务 相 比 ， 将 达到 30 : 1， 因 此 ,“ 物 联网 ”被 称 为 是 下 
一 个 万 亿 级 的 产业 。 

赛 迪 顾问 的 研究 也 显示 ，2010 年 ,我 国 物 联 网 产业 市 场 规 模 达 到 2000 亿 
元 ，2015 年 我 国 物 联网 产业 整体 市 场 规模 将 达到 7500 亿 元 ， 年 复合 增长 率 超 
过 30%9@。 

(本 章 编译 者 : 张 小 娅 ,清华 大 学 国际 传播 研究 中 心 助 理 研 究 员 ， 博 士 生 ) 


O 详 见 网 易 科 技 报道 ，http://tech.163.com/12/0411/14/7UQNAJJ600094MLL html. 
© 中 国 计 算 机 行业 网 ，http://www.ciw.com.cn/newsdemo/ciwnews/201003/20100308110630.shtml。 
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早 在 五 千 多 年 前 ， PT WO TIEN AUPE SB FLL 中 
国 的 甲骨 文 也 向 现代 人 透露 来 自 远古 的 故事 。“ 记 录 ” 这 一 人 类 独 有 的 行为 的 
重大 意义 在 于 ， 人 类 创造 的 历史 和 文明 可 以 被 继承 和 延续 下 来 ， 后 代 的 人 能 够 
循 着 前 人 的 足迹 继续 前 进 ,“ 记 录 ” 是 联系 历史 与 现在 的 纽带 。 当 下 ， 人 类 活 
动 正在 以 各 种 方式 被 记录 着 ， 从 出 生 证 明 到 死亡 证 明 ， 从 选 街 购物 到 生病 住院 
无 所 不 包 。 记 录 的 载体 从 泥 板 到 羊皮 ， 从 纸张 到 电脑 硬盘 ， 这 些 记录 的 工具 和 
形式 随 着 人 类 文明 的 发 展 而 发 展 ， 反 之 ， 这 些 记 录 也 促进 着 文明 的 进步 。 

21 世纪 的 人 类 已 经 有 能 力 存储 大 量 的 记录 ， 据 测算 ， 目 前 全 世界 的 数据 
量 相 当 于 地 球 上 每 个 人 拥有 一 块 100G 的 硬盘 。 这 些 被 记录 和 存储 的 内 容 是 如 
此 的 庞大 和 复杂 ， 如 何 利 用 它们 正 日 益 成 为 重要 的 议题 。 当 下 ， 大 数据 挖掘 的 
需求 应 运 而 生 。 “数据 挖掘 ”( Data mining ) 这 一 词汇 本 身 就 暗示 着 从 看 似 平淡 
无 奇 的 记录 资料 中 发 现 、 归 纳 和 获取 有 价值 信息 的 过 程 。 现 代 人 从 大 数据 里 挖 
掘 价值 的 过 程 与 古老 的 沙里 淘金 有 着 惊人 的 一 致 性 ， 只 不 过 对 象 从 实物 变 成 了 
抽象 的 代码 。 

数据 挖掘 2 概念 的 正式 产生 肇始 于 20 世纪 80 年 代 开始 的 计算 机 和 信息 技 
术 的 发 展 。 随 着 计算 机 存储 容量 的 增加 ， 许 多 公司 开始 储存 更 多 的 交易 数据 。 
由 此 产生 的 记录 集合 通常 被 称 为 数据 仓库 (Data warehouse )， 因 其 太 大 ， 无 法 


DO 内 容 编译 自 《 大 英 百 科 全 书 》 在 线 “data mining” , Encyclopedia Britannica. Encyclopedia Britannica 
Online Academic Edition. Encyclopedia Britannica Inc., 2012, Web. 18 May. 2012, http://www.britannica. 
convEBchecked/topic/1056150/data-mining.. 
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与 传统 的 统计 方法 进行 比较 分 析 。 于 是 科学 家 们 召开 了 许多 计算 机 科学 会 议 
和 研讨 会 ， 主 要 议题 就 是 讨论 如 何 利 用 人 工 智 能 领域 的 最 新 进展 一 一 例如 机 
器 学 习 ， 神 经 网 络 等 技术 一 一 来 进行 的 数据 库 知 识 发 现 (Knowledge Discovery 
in Database， 简 称 KDD， 是 “数据 挖掘 ”在 计算 机 学 科 中 的 首选 术语 )。 而 
后 1995 年 在 加 拿 大 蒙特 利 尔 召 开 了 第 一 届 "数据 挖掘 和 知识 发 现 ” 国际 会 议 ， 
同名 刊物 也 于 1997 年 创刊 。 在 此 期 间 ， 出 现 了 许多 早期 的 数据 挖掘 公司 和 
产品 。 

商业 出 于 对 利润 的 敏感 ， 往 往 能 嗅 到 技术 发 展 带 来 的 赚钱 机 会 ， 数 据 挖 
掘 技术 与 商业 情报 (Business intelligence ) 的 需求 一 拍 即 合 。 最 早 成 功 应 用 之 
一 便 是 探测 信用 卡 欺诈 。 通 过 搜集 用 户 的 刷卡 记录 ， 信 用 卡 公 司 分 析 了 这 些 
记录 与 持 卡 人 信息 特点 之 间 的 关系 。 当 时 的 数据 挖掘 人 员 通 过 分 析 一 段 时 间 
内 不 同类 型 持 卡 人 的 刷卡 行为 ， 得 到 某 类 持 卡 人 / 消费 者 的 一 个 典型 的 消费 模 
式 。 于 是 ， 当 这 张 信 用 卡 被 盗 刷 ， 或 者 是 持 卡 人 意图 进行 信用 卡 欺 诈 时 ， 信 
用 卡 公司 会 通过 刷卡 终端 搜集 到 处 于 这 个 模式 之 外 的 消费 信息 ， 公 司 可 以 标 
记 这 些 持 卡 人 并 为 后 续 的 调查 做 准备 ， 甚 至 拒绝 交易 。 除 此 之 外 ， 信 用 卡 公 
司 掌握 的 刷卡 记录 还 被 用 于 研究 消费 者 喜欢 在 什么 地 点 、 什 么 时 间 ， 购 买 什 
么 东西 ， 或 者 哪些 物品 会 一 起 被 购买 ， 分 析 人 员 把 重复 出 现 的 物品 放 在 一 个 
购物 篮子 中 ， 得 出 的 结论 可 以 提供 给 商家 ， 告 诉 他 们 : 将 哪些 物品 捆绑 销售 ， 
捆绑 打折 销量 会 提高 。 这 些 从 普通 销售 记录 中 “挖掘 ”出 来 的 有 价值 的 信息 
被 出 售 给 百货 公司 ， 以 供 它 们 改进 营销 策略 。 如 此 种 种 的 数据 利用 形式 是 数 
据 挖掘 的 一 种 传统 形式 ， 仅 仅 发 气 到 了 “记录 ”宝藏 的 一 小 部 分 。 

正 像 由 于 勘探 和 开发 技术 的 限制 ， 目 前 许多 海底 矿产 能 力 还 无 法 被 人 类 
利用 一 样 ， 目 前 人 类 面临 的 信息 的 海洋 也 蕴藏 着 无 与 伦比 的 宝藏 而 不 能 为 人 所 
用 。 大 数据 挖掘 技术 当前 迫切 需要 发 展 。 大 数据 时 代 的 数据 量 远 远 比 “矿藏 
海洋 ”这 个 概念 浩瀚 得 多 ,而且 这 些 数据 还 在 以 惊人 的 速度 和 加 速度 进行 增长 。 
另外 ， 数 据 的 类 型 不 仅仅 局 限于 可 以 抽象 的 “数字 ”， 还 扩展 到 大 量 的 文本 、 
超 链接 .音频 和 视频 等 传统 挖掘 方式 难以 着 手 分 析 的 信息 ,如何 从 中 寻找 到 “人 金 
子 ”是 当下 和 今后 信息 产业 的 新 发 展 方向 。 

本 章 主要 试图 向 非 计 算 机 科学 读者 介绍 大 数据 时 代 背 景 下 ， 大 数据 挖掘 
的 一 些 基 本 知识 ， 包 括 已 有 的 一 些 模式 和 方法 以 及 面临 的 变化 与 挑战 。 本 章 
将 介绍 目前 计算 机 科学 中 对 于 数据 挖掘 既 有 的 基本 路 径 和 思路 ， 继 而 介绍 数 
据 挖掘 技术 上 的 一 些 工具 和 方法 。 最 后 在 宏观 上 讨论 数据 挖掘 对 大 数据 时 代 
意义 和 挑战 。 讨 论 中 涉及 社交 网 络 的 用 户 行为 、 网 上 购物 者 的 消费 行为 分 析 
以 及 大 众 媒体 中 文本 、 视 频 和 音频 数据 挖掘 的 例子 。 
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3.2) REMEBER! || 


数据 (data) 的 含义 可 以 多 种 多 样 。 本 章 所 讨论 的 数据 ， 指 的 是 可 以 被 计 
算 机 、 互 联网 服务 器 及 各 种 终端 记录 、 传 输 和 分 析 的 信息 。 

当 我 们 的 手中 掌握 了 大 量 数据 ， 我 们 能 拿 它们 做 什么 呢 ? 有 两 种 常见 的 数 
据 挖掘 研究 路 径 。 第 一 种 , 也 是 比较 传统 的 方式 , 我 们 可 以 称 之 为 “假设 检验 ” 
的 方法 。 这 也 是 统计 学 中 常用 的 方法 。 它 指 的 是 在 真正 利用 数据 之 前 ， 数 据 挖 
据 人 员 脑 海 之 中 已 经 有 了 一 个 前 因 后 果 的 理论 假设 ,他 需要 利用 手中 已 经 有 的 
数据 来 证 明 这 个 假设 是 否 属实 。 比 如 说 ， 信 用 卡 公司 管理 层 认为 ， 教 育 程度 越 
高 的 持 卡 人 每 月 平均 消费 额 越 大 ( 这 就 是 一 个 假设 )。 于 是 该 公司 的 数据 员 会 
从 公司 的 信用 卡 持 卡 人 数据 库 中 抽出 教育 程度 及 其 对 应 的 消费 记录 数据 ， 通 过 
计算 机 辅助 运算 看 看 教育 程度 和 消费 额度 之 间 有 没有 正 向 相关 的 关系 ， 当 然 其 
中 还 会 涉及 很 多 数学 和 统计 学 运算 模型 ,我们 这 里 忽略 掉 细 节 。 利 用 数据 对 已 
经 存在 的 假设 进行 检验 ， 是 数据 挖掘 一 开始 常用 的 路 径 。 上 述 简化 的 例子 代表 
的 是 从 “假设 一 数据 一 验证 ”的 过 程 。 

而 第 二 种 数据 挖掘 的 路 径 是 数据 库 知 识 发 现 (KDD )， 也 是 目前 计算 机 科 
学 中 正在 积极 探索 的 路 径 。 这 种 方式 中 不 存在 预想 好 的 假设 或 者 论断 ， 而 是 在 
掌握 大 量 数据 的 基础 上 ， 通 过 “观察 ”数据 本 身 而 获得 。 "观察 ”似乎 是 计算 
机 不 具备 的 能 力 ， 而 海量 数据 的 计算 又 是 人 工 难 以 完成 的 ， 所 以 人 类 需要 设计 
一 些 具体 的 程序 让 计算 机 学 会 “观察 ”， 这 常常 需要 借助 数据 可 视 化 工具 或 者 
计算 机 分 析 数 据 中 各 个 因子 相互 之 间 的 相关 程度 等 方式 。 这 个 “数据 一 结论 ” 
的 路 径 是 一 种 更 直接 的 方式 。 由 于 技术 的 限制 ， 在 过 去 前 一 种 数据 挖掘 路 径 成 
为 了 主导 ， 而 近年 来 呈 爆 炸 式 增长 的 数据 迫使 人 们 消除 技术 壁垒 ， 在 第 二 种 路 
径 中 寻求 突破 。 从 1997 年 开始 举办 的 数据 挖掘 世界 杯 (KDD Cup? ) 就 是 一 个 
专门 针对 数据 库 知 识 发 现 的 竞赛 ， 它 向 业界 和 学 界 开 放 ， 为 竞争 者 提供 一 个 数 
据 库 和 数据 挖掘 任务 。2012 年 竞赛 的 数据 挖掘 任务 是 中 国 互 联网 公司 腾讯 提 
供 的 “腾讯 微 博 的 社交 网 络 挖掘 ”和 “搜索 引擎 日 志 中 挖掘 用 户 点 击 模式 "。 
2012 年 8 月 KDD Cup 的 获奖 者 将 在 北京 同期 举办 国际 数据 库 知识 发 现 和 数据 
挖掘 年 会 上 颁奖 。 本 年 的 竞赛 和 年 会 主题 都 是 围绕 大 数据 的 挖掘 展开 ， 体 现 了 
业界 和 学 界 对 此 的 高 度 关注 。 

在 近年 的 研究 者 中 ， 戴 维 " 奥 尔 森 和 石 勇 (2007 ) 介绍 了 被 广泛 应 用 的 跨 
行业 数据 挖掘 标准 流程 (CRISP-DM )， 可 以 让 读者 了 解数 据 挖掘 的 一 般 过 程 。 
这 个 标准 流程 包括 了 六 个 阶段 : 


D 关于 比赛 具体 介绍 详 见 以 下 网 址 : http:/kdd2012.sigkdd.org/kddcup.shtml。 
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业务 理解 : 数据 挖掘 人 员 确 定 工作 对 象 、 
了 解 现状 ， 制 定 工作 目标 和 工作 计划 的 过 程 。 

数据 理解 : 一 旦 对 象 和 工作 计划 拟订 了 ， 
就 要 考虑 所 需要 的 数据 。 这 一 步骤 包括 原始 数 
据 搜集 、 数 据 描述 、 数 据 探 索 和 质量 核查 。 这 
一 步骤 和 第 一 步 常 常 需要 反复 进行 。 

数据 准备 : 就 像 做 菜 需 要 对 食材 进行 得 
选 、 洗 净 、 切 成 一 定形 状 一样 ， 原 始 数据 中 有 
大 量 错误 、 重 复 的 信息 ， 需 要 删除 、 整 理 和 转 
化 。 数 据 准备 可 以 视 为 一 次 数据 探索 ， 为 之 后 


的 模型 建立 做 准备 。 3-1 CRISP-DM 数 据 挖掘 过 程 
建立 模型 : 这 一 阶段 需要 描绘 数据 并 建立 
关联 ， 然 后 用 一 定 的 分 析 方法 借助 数据 挖掘 工具 进行 数据 的 基础 分 析 。 


模型 评估 : 模型 结果 要 对 在 第 一 步 建 立 的 工作 目标 进行 评估 ， 这 将 导致 频 
繁 地 返回 到 前 面 的 步骤 。 这 是 一 个 缓慢 推进 的 过 程 ， 各 种 可 视 化 分 析 结果 、 统 
计 和 人 工 智能 工具 将 向 数据 挖掘 人 员 展 现 更 深层 次 地 理解 数据 运行 的 关系 。 

模型 发 布 : 数据 挖掘 应 用 于 先前 提 到 的 两 种 路 径 中 ， 借 助 CRISP-DM 前 期 
步骤 中 发 现 的 知识 ， 可 以 获得 更 加 健全 的 模型 。 这 个 模型 可 以 用 于 预测 或 识别 
关键 特征 ， 需 要 在 实际 情况 下 检测 其 变化 。 如 果 发 生 重大 变化 ， 模 型 就 需要 被 
重新 制定 。 模 型 发 布 就 让 从 实验 数据 库 中 建立 起 来 的 模型 在 实践 中 受到 检验 。 

Pyle ( 1999 ) 在 被 广泛 引用 的 《数据 挖掘 中 的 数据 准备 》 一 书 中 强调 了 数 


部 分 : 探究 问题 、 探 究 解决 方案 、 特 定 工具 选择 、 数 据 挖掘 。 前 三 部 分 工作 占 
用 的 时 间 占 总 时 间 的 20%， 在 重要 性 上 却 占 到 关键 的 80%。 这 个 划分 方法 虽 
与 CRISP-DM 的 六 步 模 型 不 同 ,但 是 两 者 都 强调 了 第 一 步 一 一 思考 问题 及 其 
相关 的 方案 和 选择 适合 工具 的 重要 性 。 


R31 数据 挖掘 不 同 阶段 所 占 时 间 和 重要 性 ? 


3. 特定 工具 选择 


®© 资料 翻译 自 : “Figure 1.1 Stages of a Data Exploration Project Showing Importance and Duration of Each 
Stage.” Data Preparation for Data Mining. San Francisco, CA: Morgan Kaufmann, 1999. Print. 
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占 总 时 间 的 百分比 /% 


4. 数据 挖掘 
a. 数据 准备 
b. 数据 调研 
c. 数据 建 模 


3.3) 准备 数据 和 | | | 
13.3.1 ”挖掘 方法 


数据 挖掘 的 方法 实际 上 可 以 视 为 在 大 量 前 人 工作 的 基础 上 形成 的 计算 机 
“思维 模式 ”。 奥 尔 森 将 数据 挖掘 的 方法 分 为 类 别 、 估 计 、 聚 类 和 概要 四 个 类 型 
类 别 和 估计 都 是 属于 事前 预测 性 质 的 ， 而 聚 类 和 概要 则 是 事后 描述 性 质 的 。 本 
他 介绍 一 些 最 常 让 和 而 不 能 罗列 所 有 的 数据 挖掘 方法 

1. 聚 类 分 析 

聚 类 分 析 常 常 是 最 初 的 分 析 工 具 。 它 能 够 在 你 拿 到 数据 之 后 对 其 进行 合适 
的 分 类 。 聚 类 分 析 是 以 数据 为 基础 的 ， 它 不 具有 预测 性 ， 它 的 功能 是 发 现 数据 
之 间 的 相似 性 ， 并 进行 分 组 。 在 引言 中 提 
到 的 信用 卡 诈骗 检测 中 ， 信 用 卡 持 有 
信息 丰富 ， 既 有 教育 程度 又 有 年 收入 ， 
a ! 业 也 有 性 别 等 。 按 照 怎样 的 划分 对 

月 卡 公 司 管理 和 向 客户 销售 是 最 有 效 的 ? 
Rd - 步 分 类 的 方法 。 分 
类 的 不 同 往往 会 导致 结论 的 不 一 样 。 一 个 
容易 理解 的 例子 就 是 ， 目 前 人 类 观察 到 的 
恒星 数量 达 10° 个 数量 级 ， 如 何 将 这 些 恒 
星 分 类 ? 分 类 的 依据 可 以 是 与 地 球 的 距离 
体积 、 质 量 、 亮 度 等 在 各 种 各 样 的 分 类 
之 中 ,科学 家 利用 温度 和 亮度 为 坐标 将 这 
些 恒星 有 效 地 分 类 ， 使 得 方便 天 文学 家 进 
行 研 究 ， 得 出 恒星 演化 的 理论 。 据 此 画 出 3 
的 恒星 分 布 图 叫 赫 罗 图 ( 见 图 3-2), 从 左上 图 3-2 赫 罗 图 " 


D 图 片 来 自 NASA 官方 网 站 : http://heasarc.gsfc.nasa.gov/docs/RXTE Live/class.html 
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到 右 下 的 斜 线 上 分 布 的 恒星 是 主 序 星 ， 主 序 星 右上 方 和 左下 方 分 别 是 红 巨 星 
(Red giant ) 和 白矮星 ( White dwarf )。 这 两 个 坐标 很 好 地 划分 了 恒星 的 类 别 ， 
成 为 天 文学 的 一 个 基础 性 工作 。 

2. 回归 分 析 

回归 是 一 个 基本 的 统计 学 工具 。 在 数据 挖掘 中 它 也 是 一 个 基础 的 分 析 工 
有 具 ， 它 可 以 描述 一 个 或 几 个 自 变量 和 一 个 因 变 量 之 间 的 关系 。 这 种 关系 可 以 是 
线性 的 也 可 以 是 非 线性 的 。 通 过 概率 和 统计 的 数学 方法 ， 利 用 手头 的 自 变量 和 
因 变 量 的 数据 可 以 找到 两 者 之 间 对 应 的 数学 关系 ， 即 得 到 一 个 模型 ， 在 这 个 模 
型 中 可 以 利用 自 变 量 对 因 变 量 数 据 进 行 预测 ,传统 的 软件 都 可 以 进行 回归 分 析 ， 
如 SAS、SPSS 或 者 Excel。 

3. 神经 网 络 

神经 网 络 是 受到 人 类 大 脑 各 个 神经 细胞 工作 方式 的 启发 ， 构 成 的 一 个 网 状 
结构 系统 。 这 种 网 络 由 一 个 一 个 微小 的 处 理 器 ( 类 似 于 神经 元 ) 和 各 个 处 理 器 
之 间 的 弧 线 ( 类 似 于 神经 线 ) 构成 输入 层 、 隐 藏 层 和 输出 层 。 神 经 网 络 的 特点 
是 中 间 有 隐藏 层 ( 见 图 3-3， 从 左 到 右 )， 人 们 从 输入 层 录 入 数据 ， 各 个 微小 
处 理 器 之 间 可 以 模拟 类 似 人 类 的 识别 、 记 忆 、 思 考 过 程 ， 从 而 得 出 结果 。 神 经 
网 络 处 理 数据 的 优点 是 有 高 度 平行 处 理 的 能 力 ， 而 且 可 以 有 识别 、 学 习 能 力 ; 
此 外 ， 出 现 部 分 的 计算 差错 或 者 是 数据 错误 不 会 影响 整体 计算 过 程 ， 就 像 人 类 
大 脑 部 分 受 损 之 后 并 不 影响 其 整体 工作 一 样 。 但 它 也 有 明显 的 缺陷 ， 即 隐藏 层 
是 人 们 无 法 解释 其 运算 过 程 ， 就 像 一 个 黑箱 一 样 。 而 且 多 组 平行 的 、 部 分 隐藏 
的 数据 通路 让 人 无 法 判断 哪 一 个 通路 是 最 优 的 。 


MAB 隐藏 层 输出 层 
Input Hidden Output 
layer layer layer 


输入 #1 Input #1 一 — 
输入 妇 Input #2 一 
Output 输 出 
输入 #3 Input #3 — 


输入 #4 Input #4 — 


图 3-3 ”神经 网 络 简 图 


®© 资料 翻译 自 : Fauske, Kjell Magne. Neural Network. Digital image. Texample net 7 Dec. 2006. Web. 22 
May. 2012, http://www.texample.net/tikz/examples/neural-network/., 
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4. 决策 树 算 法 

决策 树 模型 是 一 个 被 广泛 使 用 的 思考 工具 ， 它 也 是 数据 挖掘 的 基本 方法 。 

HEARSE A (2004) 介绍 ， 决 策 树 算法 的 分 类 学 习 过 程 包括 两 个 阶段 : 树 
构造 (Tree Building) 和 树 前 枝 ( Tree Pruning) 。 

中 树 构 造 阶段 

决策 树 采 用 自 顶 向 下 的 递归 方式 : 从 根 节点 开始 在 每 个 节点 上 按照 给 定 标 
准 选择 测试 属性 ， 然 后 按照 相应 属性 的 所 有 可 能 取 值 向 下 建立 分 枝 、 划 分 训练 
样本 ， 直 到 一 个 节点 上 的 所 有 样本 都 被 划分 到 同一 个 类 ， 或 者 某 一 节点 中 的 样 
本 数量 低 于 给 定 值 时 为 止 。 这 一 阶段 最 关键 的 操作 是 在 树 的 节点 上 选择 最 佳 测 
试 属性 ， 该 属性 可 以 将 训练 样本 进行 最 好 的 划分 。 选 择 测试 属性 的 标准 有 信息 
增益 、 信 息 增 益 比 、 基 尼 指 数 ( Gini Index) 以 及 基于 距离 的 划分 等 。 此 外 ， 测 
试 属性 的 取 值 可 以 是 连续 的 (Continuous)， 也 可 以 是 离散 的 (Dis-crete)， 而 样 
本 的 类 属性 必须 是 离散 的 。 

© 树 剪 枝 阶段 

构造 过 程 得 到 的 并 不 是 最 简单 、 紧 凑 的 决策 树 ， 因 为 许多 分 数 反映 的 可 能 
是 训练 数据 中 的 噪声 或 孤立 点 。 树 剪 枝 过 程 试图 检测 和 去 掉 这 种 分 数 , 以 提高 
对 未 知 数据 集 进 行 分 类 时 的 准确 性 。 树 剪 枝 主 要 有 先 剪 枝 、 后 剪 枝 或 两 者 相 结 
合 的 方法 。 树 剪 枝 方法 的 剪 枝 标准 有 最 小 描述 长 度 原 则 (MDL) 和 期 望 错 误 率 
最 小 原则 等 。 前 者 对 决策 树 进行 二 进位 编码 ， 最 佳 剪 枝 树 就 是 编码 所 需 二 进位 
最 少 的 树 ; 后 者 计算 某 节点 上 的 子 树 被 前 枝 后 出 现 的 期 望 错 误 率 ， 由 此 判断 是 
BAN. 

图 3-4 是 一 个 简单 的 决策 树 运算 过 程 。 假 设 在 固定 存款 和 购买 股票 之 间 
选择 ， 假 设 股票 的 预期 收益 有 优 、 中 、 差 三 种 ， 可 能 性 分 别 是 30%, 40% 和 
30%， 与 固定 存款 带 来 的 固定 收益 比较 起 来 哪个 更 好 ? 通过 决策 树 算 法 得 到 结 
果 : 股票 预期 收益 以 三 种 不 同情 况 加 权 之 后 算得 的 预期 收益 是 5%， 比 固定 存 
款 利率 7% 低 ， 于 是 得 出 投资 结论 。 


图 3-4 投资 选择 的 决策 树 算法 
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以 上 介绍 了 数据 挖掘 中 最 常见 的 四 种 方法 ,这些 方法 为 处 理 数据 作出 基础 
的 分 类 或 者 运算 。 实 际 的 数据 挖掘 过 程 并 不 如 这 些 简 化 的 图 看 上 去 这 么 简单 ， 
需要 很 多 计算 机 科学 的 知识 ， 但 是 基本 思路 的 方法 是 相同 的 。 另 外 还 有 很 多 其 
他 的 挖掘 方法 ， 限 于 篇 幅 在 此 不 作 介绍 。 


13.3.2 ”数据 获取 


数据 挖掘 始 于 数据 吗 ? 错 ! 正如 同 现代 市 场 营销 观 念 中 ， 销 售 始 于 发 现 消 
费 者 需求 一 样 ， 数 据 抓 取 取 决 于 你 想 要 解决 什么 问题 ， 这 就 回 到 上 一 节 中 讲 到 
的 ， 弄 清楚 你 要 解决 的 问题 ， 才 能 知道 你 需要 什么 样 的 数据 。 当 这 一 步骤 很 好 
地 完成 之 后 ， 数 据 挖掘 人 员 才 开始 寻找 并 发 现 什 么 样 的 数据 是 他 需要 的 ， 简 单 
地 说 , 能 否 正确 地 选择 方向 和 路 径 , 决定 了 你 是 否 能 够 到 达 终 点 。Pyle (1999 ) 
提 到 ， 数 据 获取 包含 了 数据 发 现 、 特 征 描 述 和 数据 集成 三 个 阶段 。 

例如 ,淘宝 网 的 一 个 卖家 想 知道 自己 店铺 的 首页 究竟 应 该 放 多 少 件 商品 最 
好 。 于 是 该 商家 向 淘宝 网 内 部 工作 人 员 提 出 这 个 问题 ， 并 愿意 为 此 支付 报酬 。 
淘宝 网 的 数据 工作 人 员 得 到 了 这 个 任务 ， 他 会 首先 研究 提出 该 要 求 的 卖家 所 属 
类 型 和 业务 发 展 所 处 的 阶段 ， 例 如 ， 该 卖家 是 以 经 营 什么 商品 为 主 ， 该 商品 种 
类 是 否 繁多 而 需要 单独 陈列 等 。 在 和 并 清楚 卖家 的 实际 需要 之 后 ， 数 据 挖掘 人 员 
开始 描述 他 需要 的 数据 具有 的 特征 ， 而 后 设 定 限制 条 件 ， 这 样 才能 在 整个 网 站 
数据 库 中 抓 取 该 卖家 处 于 同一 商品 类 别 中 的 其 他 卖家 的 页 面 陈列 数据 ， 并 且 根 
据 一 定 的 关系 分 为 不 同 的 数据 集合 。 数 据 的 抓 取 实 际 上 建立 在 对 于 问题 的 理解 
上 ， 只 有 真正 理解 问题 之 后 ， 你 所 需要 的 数据 类 型 和 特点 才能 明晰 ， 这 样 就 
避免 了 数据 库 中 挨 杂 与 最 终 建 立 起 来 的 商品 陈列 及 购买 率 无 关 的 数据 ， 从 而 
避免 了 错误 的 结论 。 

另外 ,数据 获取 的 工具 也 会 影响 数据 库 中 数据 的 形式 ， 从 而 影响 分 析 过 
程 。 例 如 ， 遍 布 在 商场 各 处 的 摄像 头 搜集 到 的 是 连续 的 图 像 信 息 ， 有 些 人 称 之 
为 数据 流 ， 而 收银 台 收 到 的 是 一 个 一 个 消费 时 间 、 内 容 、 金 额 等 数字 化 信息 ， 
为 了 在 后 续 的 数据 分 析 中 ， 使 数据 形式 尽量 简单 ， 就 需要 在 一 开始 搜集 数据 的 
终端 上 改进 。 


13.3.3 ”数据 存储 


数据 的 存储 含义 并 不 难 理解 ， 它 是 把 数据 流 在 加 工 过 程 中 产生 的 临时 文件 
或 加 工 过 程 中 需要 查找 的 信息 、 数 据 以 某 种 格式 记录 在 计算 机 内 部 或 外 部 存储 
介质 上 。 数 据 存储 要 命名 ， 这 种 命名 要 反映 信息 特征 的 组 成 含义 。 数 据 流 反映 
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了 系统 中 流动 的 数据 ， 表 现 出 动态 数据 的 特征 ; 数据 存储 反映 系统 中 静止 的 数 
据 ， 表 现 出 静态 数据 的 特征 。 

目前 在 互联 网 上 每 秒 钟 都 产生 着 大 量 数 据 ， 这 些 数据 以 流动 的 形式 存在 
着 。 例 如 一 个 人 浏览 网 页 的 过 程 ， 鼠 标 停 留 的 位 置 ， 在 每 个 页 面 停留 的 时 间 ， 
从 一 个 页 面 转向 下 一 个 页 面 的 过 程 都 会 被 服务 器 记录 下 来 存 到 一 个 合适 的 地 
方 ， 以 供需 要 研究 网 民 浏 览 行为 的 公司 或 者 个 人 使 用 。 根 据 信 息 产 业 资 讯 公 
司 IDC 在 2011 年 6 月 发 布 的 “数字 宇宙 ”( Digital universe ) 报告 《从 混沌 中 
提取 价值 》( Gantz et al., 2011 )，2011 年 全 球 被 创建 和 被 复制 的 数据 总 量 为 
1.8ZB。1.8ZB 是 什么 概念 ?举例 来 说 ，1.8ZB 相当 于 全 球 每 个 人 每 天 都 去 做 
2.15 亿 次 高 分 辨 率 的 核磁 共振 检查 所 产生 的 数据 总 量 。? 

报告 还 指出 ， 目 前 这 些 数据 中 75% 是 个 人 制造 的 ， 但 是 相信 在 未 来 ， 全 
球 数据 的 80% 将 由 企业 数据 构成 。 这 些 大 量 的 企业 数据 则 来 源 于 它们 对 网 民 
行为 、 网 络 文本 、 视 频 和 音频 资料 的 对 此 分 析 (Gantz et al., 2011 )。 这 些 数 
据 是 “关于 数据 的 数据 ”(Data about data)， 计 算 机 科学 称 之 为 元 数据 (meta 
data )。 举 例 来 说 ， 图 书馆 中 各 种 图 书 的 索 书 号 就 是 元 数据 ， 它 可 以 帮助 你 不 
必 通 过 查看 图 书本 身 来 找到 图 书 。 这 对 大 数据 时 代 海 量 的 图 片 、 文 字 和 视频 、 
音频 的 处 理 非常 重要 , 用 传播 学 的 视角 来 看 , 元 数据 相当 于 把 所 有 内 容 “ 解 码 ” 
成 方便 数据 仓库 存储 和 查找 的 单元 ， 进 而 方便 大 数据 的 分 析 和 模型 化 。 比 如 说 
在 社交 网 站 Facebook 中 的 人 脸 识别 可 以 帮助 用 户 使 用 “ 圈 人 ”功能 ， 识 别 照 
片 中 人 脸 的 过 程 实际 上 是 把 图 片 数据 转化 为 关于 人 类 面部 图 像 的 元 数据 。 元 数 
据 的 增长 速度 在 目前 是 整个 数据 量 的 增长 速度 的 两 倍 (Gantz et al., 2011 )， 随 
着 技术 的 发 展 ， 新 的 搜索 、 发 现 、 分 析 工 具 使 得 元 数据 产生 的 速度 大 大 提高 。 
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图 3-5 ”数据 存储 十 年 发 展 ( 单位 : 艾 字 节 ) 2 


D 这 个 例子 的 原文 链接 : http://storage.chinabyte.com/163/12110163.shtml。 
@ 资料 来 源 : IDC 报告 《从 混沌 中 提取 价值 》 
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爆炸 的 数据 量 预示 着 背后 大 量 的 人 力 和 财力 的 支持 。 据 统计 ， 自 2005 年 
以 来 ， 企 业 在 数据 存储 上 的 投资 增长 了 50%， 达 到 现在 的 约 4 万 亿美 元 。 而 
存储 的 平均 费用 却 在 降低 ， 未 来 5~10 年 ， 相 关 的 人 才 需 求 也 在 成 倍增 加 。 
图 3-6 显示 了 2005 一 2015 年 数据 存储 平均 费用 和 投资 的 消长 关系 。10 年 间 ， 
每 GB 的 存储 费用 降低 到 原来 的 不 到 10， 而 总 体 投资 增长 不 过 增加 了 一 倍 左 
右 。 这 个 现象 印证 了 摩尔 定律 (Moore’s Law ), 英特尔 公司 创始 人 之 一 戈 登 . 摩 
IRF 1965 年 在 做 一 份 计算 机 趋势 报告 时 发 现 ， 在 价格 不 变 的 情况 下 ,计算 机 
集成 电路 上 能 容量 的 品 体 管 数量 每 18 个 月 翻 一 番 。 也 就 是 说 相同 价格 的 电脑 ， 
相隔 18 个 月 的 后 者 比 前 者 性 能 翻 一 倍 以 上 。 


一 每 G 字 节 的 费用 
总 投资 (单位 ， 万 亿美 元 ) 


0 
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 


3-6 “十 年 数据 平均 存储 费用 (GB) 和 投资 ( 万 亿美 元 ) O 


13.3.4 ”数据 清洗 


数据 清洗 (data cleansing ) 的 概念 很 容易 理解 ， 从 字面 上 看 就 是 把 已 经 存 
储 好 的 数据 中 “ 脏 的 ”数据 (dirty data) 洗 去 。 更 科学 的 概念 是 把 存储 数据 中 
可 以 识别 的 错误 去 除 。 在 数据 仓库 中 和 数据 挖掘 过 程 中 ， 数 据 清 洗 的 含义 是 
使 得 数据 在 一 致 性 (Consistency)、 正 确 性 (Correctness)、 完 整 性 (Completeness) 
和 最 小 性 (Minimality) 四 个 指标 满足 上 达到 最 优 ， 目 前 数据 质量 ( Data quality ) 
也 是 在 这 四 个 层面 定义 的 。 

数据 清洗 是 正式 使 用 数据 前 最 后 一 道 关 卡 ， 在 数据 挖掘 领域 它 也 被 称 为 数 
据 的 预 处 理 。 图 3-7 为 数据 清洗 原理 。 


D 资料 来 源 : IDC 报告 《从 混沌 中 提取 价值 六 
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同一 值 不 同 的 表示 


| 


拼写 错误 一 一 ~| 一 一 一 FHA 
命名 习惯 脏 数据 一 一 一 空 值 
数据 统计 技术 一 一 - 一 异常 检测 
数据 控 气 技术 一 “一 SS 一 一 一 重复 处 理 
| 满足 数据 质量 要 求 的 数据 


图 3-7 ”数据 清理 原理 


大 数据 背景 下 , 大 量 来 源 不 一 的 元 余 、 复 杂 、 错误 数据 被 存储 , 之 后 的 “去 
粗 存 精 “、“ 去 伪 存 真 ”工作 需要 数据 清理 技术 加 快 发 展 速度 ， 在 极 短 时 间 内 提 
高 数据 质量 ， 满 足 行业 和 个 人 的 数据 挖掘 要 求 。 大 数据 时 代 下 ， 人 们 不 缺乏 数 
据 ， 而 是 缺乏 找到 有 价值 数据 的 能 力 和 工具 ， 这 使 得 数据 清洗 的 价值 凸显 。 不 
过 ， 目 前 数据 清洗 的 技术 能 力 还 远 远 不 能 满足 清洗 大 数据 的 要 求 ， 它 或 成 为 数 
据 挖掘 技术 的 一 个 热点 。 


B54 挖掘 过 程 | 和 | | 


IDC 的 报告 《从 混沌 中 挖掘 价值 》 详 细 描述 了 数据 挖掘 的 过 程 。 根 据 存 
储 技术 的 不 同 ， 人 们 常 把 数据 划分 为 结构 化 数据 和 非 结 构 化 数据 。 简 单 来 说 ， 
结构 化 数据 就 是 能 够 用 统一 长 度 的 字段 ( Field ) 来 表示 的 数据 ， 如 数字 和 符 
号 。 对 应 的 ， 非 结构 化 数据 需要 不 同 长 短 的 字段 来 表示 ， 这 需要 数据 库 的 存 
储 和 分 析 能 根据 需要 具有 可 伸缩 性 (Scalability )。 形 象 说 来 ， 非 结构 化 的 数据 
挖掘 技术 能 同时 找 出 全 世界 人 口 的 特征 分 布 和 对 一 篇 博文 的 概念 与 主张 的 深 
度 分 析 。 结 构 化 数据 是 过 去 数据 挖掘 的 主要 方向 , 但 是 ， 这 些 内 容 只 占 总 体 
数据 量 的 冰山 一 角 。 根 据 IDC 的 报告 ， 目 前 所 有 数据 中 90% 是 非 结构 化 的 数 
据 。 这 些 非 结构 数据 来 源 于 网 站 上 个 人 发 布 的 文字 、 社 交 网 络 中 大 量 的 聊天 
记录 、 各 种 被 复制 、 转 发 或 者 重新 编辑 的 Flash 动画 、 各 种 格式 的 视频 和 音频 
等 。 结 构 化 数据 挖掘 的 一 般 过 程 在 其 他 大 量 商 业 或 者 是 计算 机 科学 的 书籍 中 能 
找到 ， 本 节 重 点 介绍 网 络 文本 挖掘 并 扼要 介绍 WEB 挖掘 的 过 程 ( Gantz et al., 
2011 ). 


© 杨 辅 祥 ， 刘 云 超 ， 段 智 华 等 .数据 清理 综述 .计算 机 应 用 研究 ，2002, 19(3): 3~5. 
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和 3.4.1 文本 挖掘 


个 人 和 机 构 每 天 使 用 互联 网 产生 的 大 量 电子 文档 ， 比 如 说 一 篇 有 感 而 发 的 
博文 、 与 好 友 的 聊天 记录 、 转 发 的 微 博 等 。 这 些 文字 信息 无 法 使 用 传统 的 数据 
挖掘 方法 进行 分 析 ， 文 本 挖掘 (Text mining ) 是 对 文本 进行 的 数据 挖掘 。 它 最 
初 的 应 用 包括 对 大 量 飞机 事故 报告 、 警 察 局 档案 的 挖掘 。 例 如 ， 通 过 挖掘 警察 
局 的 案件 卷宗 ， 一 些 地 理 上 分 散 、 时 间 上 相隔 甚 久 的 案件 之 间 的 联系 可 以 被 发 
掘 出 来 ， 通 过 挖掘 这 些 卷宗 文本 ， 可 以 找到 零散 案件 发 生 的 类 似 之 处 ， 或 者 导 
致 事故 发 生 的 共同 原因 ， 或 者 在 某 个 城市 的 哪些 区 域 和 时 间 案 件 高 发 ， 从 而 优 
化 警察 局 巡逻 安排 、 城 市 管理 等 。 

除 此 之 外 ,文本 控 掘 在 商业 领域 也 有 很 大 应 用 。 文 本 挖掘 在 商业 情报 
( Business Intelligence ) 应 用 上 得 到 了 很 大 发 展 。 例 如 ， 公 司 A 会 以 自己 公司 
的 名 字 或 者 某 产品 的 名 字 为 中 心 搜索 所 有 网 络 上 相关 的 文本 ， 可 能 是 用 户 购买 
之 后 的 评价 反馈 、 博 客 中 体现 个 人 情感 的 只 言 片 语 ， 还 有 很 多 的 新 闻 稿件 。 文 
本 挖掘 包括 提炼 中 心思 想 、 关 键 词 搜索 、 归 纳 文 章 要 点 、 串 联 各 篇 文章 的 主 
题 等 ; 还 可 以 通过 文本 中 语义 关键 词 或 者 句子 搜索 信息 。 在 其 中 ,语义 网 络 
( Semantic network ) 是 很 重要 的 工具 ， 它 通过 一 系列 文本 中 概念 与 概念 的 关系 
网 络 来 发 现 最 重要 的 概念 。 文 本 挖掘 过 程 实际 上 是 将 大 量 人 类 语言 材料 按照 计 
算 机 语言 能 够 理解 的 方式 分 解 ， 再 重新 组 合成 具有 特定 意义 的 计算 机 语言 然后 
被 人 理解 ， 从 中 发 现 新 的 知识 或 模式 。 

通常 来 说 ， 文 本 挖掘 的 第 一 步 是 找 出 具有 独立 意义 的 信息 单元 ， 比 如 一 篇 
文章 中 的 同 义 字 词 。 现 在 已 经 形成 了 一 个 庞大 的 同 义 字 词 库 ， 在 此 基础 上 分 析 

章 时 产生 关联 意义 ， 可 以 帮助 人 们 快速 浏览 十 篇 、 百 篇 文章 的 主要 内 容 。 此 
后 建立 的 文本 运算 法 则 将 分 解 的 信息 重新 组 合 ， 得 出 一 个 总 体 的 模式 或 者 各 个 
关键 概念 之 间 的 相互 关系 。 目 前 文本 挖掘 技术 包括 自动 分 类 、 文 本 相似 性 检索 
( 自动 排 重 )、 自 动 摘 要 + 主题 词 标 引 ( 自由 词 + 行业 主题 词 )、 常 识 校对 、 相 
关 短 语 检索 、 自 然 语言 检索 等 。 

文本 挖掘 技术 在 现代 信息 系统 中 的 应 用 越 来 越 广泛 ， 其 重要 性 也 越 来 越 突 
出 ， 在 信息 资源 处 理 的 多 个 阶段 ， 包 括 信息 采集 前 ， 后 的 预 处 理 ， 信 息 编辑 或 
加 工时 的 辅助 标 引 、 信 息 服务 时 的 摘要 等 信息 调用 参考 、 信 息 检索 时 智能 辅助 
的 功能 ， 都 需要 依赖 文本 智能 挖掘 技术 来 实现 。 

文本 挖掘 技术 除了 在 商业 领域 的 应 用 之 外 ,在 今后 的 公共 安全 、 与 情 监测 
方面 的 作用 巨大 。 举 例 来 说 ， 关 于 食品 安全 的 议题 近期 以 来 一 直 是 媒体 报道 和 
网 民 讨 论 的 热点 。 文 本 挖掘 系统 可 以 在 所 有 关于 食品 安全 的 新 闻 报 道 或 者 个 人 
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博客 、 日 志 中 ,通过 关键 词 、 语 义 分 析 网 络 发 现 媒体 或 者 是 网 民 和 群体 的 态度 ， 
究竟 是 更 关心 政府 的 监督 还 是 更 集中 在 批判 不 法 商贩 。 图 3-8 展示 了 30 日 内 
“经 济 学 人 ”网 站 中 用 户 评论 的 关键 词 及 其 相互 关系 。 关 键 词 越 大 说 明 评论 者 
越 多 ， 关 键 词 之 间 的 连 线 越 粗 说 明 同 时 提 到 两 者 的 评论 数量 越 多 。 当 用 户 将 鼠 
标 放 到 某 一 关键 词 上 时 ， 可 以 显示 与 这 个 关键 词 最 相关 的 其 他 关键 词 和 具体 的 
用 户 评论 。 这 个 图 为 网 站 浏览 者 提供 了 一 个 直观 的 印象 ， 了 解 和 他 一 样 的 网 民 
都 关心 哪些 话题 ， 并 且 这 些 话题 之 间 的 关系 是 什么 。 当 然 ， 这 只 是 文本 挖掘 的 
一 个 小 应 用 。 


-一 
3-8 “经 济 学 人 ”网 站 评论 关键 词 去 截图 


上 图 “经 济 学 人 ”的 “评论 关键 词 云 ”的 例子 可 以 看 作 是 一 个 小 范围 的 简 
易 与 情 检 测 系 统 ， 当 一 国政 府 或 者 公共 机 构 需 要 实时 监测 网 络 热点 话题 ， 并 对 
此 进行 评价 和 预测 是 否 会 发 展 危 机 ， 进 而 评估 这 种 风险 时 , 就 需要 用 到 综合 文 
本 挖掘 以 外 其 他 形式 数据 的 能 力 ，WEB 挖掘 就 是 一 个 相对 文本 挖掘 内 容 更 丰 
富 、 更 复杂 的 例子 ， 它 也 是 未 来 需要 大 规模 发 展 的 技术 热点 。 


和 3.4.2 WEB 挖掘 


比 文本 挖掘 更 复杂 和 更 广泛 的 是 WEB 挖掘 。 互 联网 的 “信息 很 密 ， 价 值 
很 稀 "， 人 们 被 大 量 的 信息 流 所 淹没 而 仍然 渴望 从 中 获取 知识 和 价值 。WEB 挖 
掘 能 够 在 网 络 上 帮助 文件 和 服务 定位 。 搜 索引 擎 就 是 这 种 作用 最 基本 的 体现 ， 


D 资料 来 源 : http://www.economist.com/conversation-cloud?days=30, 未 翻译 。 


73 


74 


大 数据 BIG DATA 


同时 也 是 引导 更 复杂 的 WEB 挖掘 形式 必要 的 最 初 行为 ， 它 还 包括 信息 的 提取 
功能 ， 这 里 的 信息 是 指 在 搜索 行为 中 的 数字 或 文本 数据 。 被 搜集 到 的 数据 包括 
数字 、 文 字 、 图 片 以 及 其 他 数字 形式 的 媒介 。WEB 挖掘 在 网 站 上 的 另外 一 个 
关键 行为 是 查看 用 户 行为 ， 人 研究 网 络 用 户 的 模式 不 仅 有 利于 预测 用 户 行为 ， 还 
可 以 通过 一 些 研 究 得 到 的 结果 改善 网 站 的 设计 ， 以 达到 提高 浏览 量 或 者 销售 业 
绩 的 目的 。WEB 挖掘 的 研究 分 类 包含 以 下 三 类 : WEB 内 容 挖掘 (Web content 
mining), WEB 结构 挖掘 (Web structure mining) 和 WEB 使 用 模式 挖掘 (Web 
usage mining)。 

WEB 内 容 挖掘 从 网 上 搜集 有 用 的 信息 (包括 网 民 访 问 信息 )， 是 指 挖掘 网 
页 本 身 所 含 的 内 容 和 网 页 后 台 服务 器 搜集 到 的 网 民 浏 览 网 页 时 所 留 下 的 痕迹 。 
比如 说 ， 购 物 网 站 亚马逊 ( Amazon.cn ) 首页 上 会 出 现 “ 与 您 浏览 过 的 商品 相 
关 的 推荐 ”或 者 “根据 浏览 记录 为 您 推荐 ”的 商品 。 实 现 这 个 功能 的 过 程 其 实 
是 在 拥有 庞大 的 用 户 浏览 数据 库 基础 上 ,了 人 解 顾客 的 购买 目标 并 展开 聚 类 分 析 ， 
从 而 预测 出 顾客 还 可 能 想 要 什么 商品 。 基 于 WEB 内 容 挖掘 的 好 处 是 数据 的 真 
实 性 和 大 样本 量 提高 了 其 结果 的 有 效 性 。 

WEB 结构 挖掘 是 探寻 网 页 与 网 页 之 间 的 关系 ， 或 者 超 链接 之 间 的 结构 关 
系 。 一旦 明确 了 这 些 结构 ， 数 据 挖掘 人 员 可 以 在 不 同 的 网 站 之 间 方 便 地 查找 同 
类 或 者 近似 的 内 容 ， 或 者 找到 一 些 更 优化 的 网 站 设计 方式 。 

WEB 使 用 模式 挖掘 是 通过 分 析 来 自 网 络 服务 器 的 二 手数 据 ( 元 数据 ) 得 
到 关于 网 民 使 用 网 络 的 路 径 或 者 习惯 ， 这 些 网 络 使 用 模式 可 以 是 广义 的 、 普 通 
的 ,也 可 以 根据 客户 的 要 求 集 中 地 挖掘 某 一 类 用 户 或 者 某 一 类 网 站 的 使 用 模式 。 
网 络 服务 日 志 (Web server log ) 是 取得 此 类 信息 的 最 主要 方法 ， 这 些 信息 经 常 
储存 在 网 络 数据 仓库 中 ,等 待 进一步 的 数据 挖掘 。 上 文 提 到 的 KDD Cup 的 竞 
赛 任 务 之 一 就 属于 使 用 模式 挖掘 。 通 过 找到 用 户 点 击 网 页 的 模式 来 提高 网 页 投 
放 广 告 的 精准 度 ， 是 许多 互联 网 企业 最 关心 的 话题 。 


人 类 因为 数字 才 感 觉 世 界 更 加 可 靠 ， 并 且 依赖 数字 工具 探索 宇宙 的 奥秘 。 
在 现代 ， 金融、 电信 等 行业 业务 本 身 就 是 对 数据 的 存储 、 挖 气 、 传 输 ， 或 者 说 
靠 挖掘 数据 做 出 决策 。 在 大 数据 的 背景 下 ， 传 统 的 数据 挖掘 已 经 不 能 满足 分 析 
和 挖掘 海量 信息 的 需要 了 。 目 前 大 多 数 的 思路 是 ， 以 “解码 ”的 方式 将 大 量 非 
结构 化 的 数据 转 为 结构 化 数据 ， 将 多 维度 的 信息 以 计算 机 的 二 维 形式 呈现 ， 然 
后 再 归于 结构 化 的 数据 处 理 方式 。 其 中 的 危险 是 ,“ 解 码 ”的 工具 决定 了 解码 
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的 结果 ， 从 而 导致 一 些 不 能 被 结构 化 的 信息 流失 。 因 此 ， 在 未 来 几 年 中 ， 数 据 
挖掘 的 需求 可 能 导致 数据 搜集 、 存 储 方式 的 改变 ， 这 或 许 会 成 为 信息 行业 的 一 
个 大 的 变革 。 

传统 数据 统计 的 危险 在 于 ， 把 所 有 的 数据 在 量 上 进行 比较 并 得 出 结论 ， 而 
它 的 假设 前 提 是 所 有 的 数据 都 是 同 质 的 。 这 是 一 个 可 疑 的 命题 。 一 些 技 术 人 员 
已 经 意识 到 了 这 个 问题 ， 正 在 开发 更 加 类 似 于 人 类 自然 语言 的 数据 挖掘 方式 。 
“ 异 质 ” 数 据 的 挖掘 技术 才刚 刚 进入 开发 阶段 。 

这 只 是 数据 挖掘 的 一 个 潜在 的 危险 。 而 另外 一 个 更 迫切 、 更 显而易见 的 危 
险 是 “ 错 进 ， 错 出 ”( Garbage In, Garbage Out, GIGO )。 这 种 危险 在 于 人 类 现 
在 不 缺少 信息 ， 或 者 说 是 手中 的 信息 太 多 而 无 所 适 从 。 人 类 目前 抓 取 和 存储 信 
息 的 能 力 大 增 , 但 是 如 何 辨 别 数据 的 价值 从 而 防止 大 量 的 错误 信息 进入 待 挖 气 
的 数据 中 ， 还 需要 技术 的 进一步 发 展 。 

目前 已 经 有 一 些 公司 试图 在 数据 挖掘 中 挖掘 到 更 多 的 价值 ， 它 们 开发 的 
数据 挖掘 工具 开始 嵌入 到 各 个 需要 数据 分 析 的 企业 的 核心 , 例如 Hadoop 平台、 
SQL Server 等 都 开始 深入 海量 数据 的 挖掘 。 国 内 的 购物 网 站 之 一 淘宝 网 也 利用 
其 掌握 的 一 手 用 户 数据 推出 “淘宝 魔方 ”服务 ， 通 过 后 台数 据 挖掘 用 户 评论 、 
浏览 量 、 收 藏 量 等 来 预测 某 个 商家 或 某 件 商品 的 销售 趋势 。 越 来 越 多 的 个 体 商 
家 开始 求助 于 销售 数据 挖掘 来 提高 未 来 的 业绩 。 

大 数据 时 代 的 数据 挖掘 方式 必 将 更 加 入 性 化 、 社 会 化 ， 以 人 为 中 心 来 改 
进 计 算 机 和 互联 网 技术 。 这 需要 改变 过 去 已 经 建立 起 来 的 一 些 数据 存储 和 传输 
的 方式 ， 如 社交 网 站 用 户 之 间 的 交往 模式 、 上 亿 张 图 片 被 浏览 的 记录 等 。 大 的 
变革 预示 着 行业 未 来 相关 的 人 才 将 会 紧缺 ， 资 金 和 项 目 都 会 大 量 涌 人 大 数据 控 
掘 业务 中 。 这 种 业务 不 是 依靠 单个 公司 或 者 单个 行业 就 足够 的 ， 正 如 人 际 关系 
网 的 交大 ， 大 数据 时 代 下 ， 信 息 产 业 和 互联 网 通过 大 数据 挖掘 出 来 的 商业 价值 
将 制造 业 、 服 务 业 、 农 业 等 产业 更 加 紧密 地 整合 在 一 起 。 如 IDC 报告 (Gantz 
et al., 2011 ) 设想 的 那样 ， 大 数据 时 代 的 技术 飞跃 需要 一 个 新 的 “曼哈顿 计划 ” 
整合 公司 间 、 行 业 间 的 资源 和 人 才 优 势 。 对 于 中 国 来 说 ， 庞 大 的 用 户 基 数 和 持 
续 稳 定 的 经 济 、 行 业 发 展 状 况 为 大 数据 挖掘 行业 提供 了 优良 的 发 展 基础 ， 就 像 
20 年 前 ， 很 多 人 还 不 知 网 络 为 何 物 、 有 何 用 途 ， 而 现在 没有 一 天 不 靠 互 联网 
工作 、 生 活 一 样 ， 下 一 个 10 年 ,大 数据 挖掘 、 云 计算 等 或 许 将 改变 商业 的 运 
作 模 式 和 人 们 的 日 常 行为 。 

这 一 趋势 已 经 初 现 端倪 。 

(本 章 编译 者 : 汪 震 ， 清 华 大 学 国际 传播 研究 中 心 助理 研究 员 ， 硕 士 研究 生 ) 
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但 问题 是 : 大 数据 的 影 脾 插 把 人 类 社会 引 向 何方 ? 4 

“想象 一 下 到 2020 年 我 们 会 是 什么 样 ? ”美国 皮 尤 研究 中 心 (Pew 
Research Center ) 与 伊 隆 大 学 于 2012 年 7 月 20 日 发 布 了 一 项 调查 报告 ， 显 示 
出 了 人 们 对 这 一 问题 的 不 同 态度 和 看 法 。 一 部 分 人 描绘 出 了 大 数据 将 要 创造 
的 乐观 图 景 ， 能 够 促进 社会 、 政 治 和 经 济 的 智能 化 发 展 ; 另 一 部 分 人 则 认为 到 
2020 年 大 数据 将 引发 更 多 的 问题 。 

53% 的 人 对 大 数据 创造 的 未 来 世界 表示 乐观 ， 他 们 认为 : 

到 2020 年 ， 对 大 量 数据 集 的 人 为 和 机 器 分 析 将 要 极 大 地 促进 社会 、 政 治 
和 经 济 智能 化 发 展 。 大 数据 的 兴起 将 带 来 一 连 串 的 福音 : 促进 “即时 预报 ”; 
推动 能 够 评估 数据 类 型 的 “推理 软件 ”的 发 展 ; 创造 可 以 从 全 新 角度 理解 世界 
的 高 级 算法 。 总 之 ， 大 数据 的 崛起 会 为 社会 的 各 个 方面 带 来 积极 的 影响 。 

39% 的 人 的 观点 却 恰 好 相反 ， 他 们 认为 : 

到 2020 年 ， 对 大 量 数据 集 的 人 为 和 机 器 分 析 将 会 引发 更 多 的 问题 。 对 于 
大 数据 集 的 分 析 将 会 造成 我 们 对 自身 预测 能 力 的 盲目 自信 ， 进 而 会 导致 很 多 错 
误 的 决定 。 而 且 ， 这 些 分 析 结 果 将 会 被 强权 的 群体 和 机 构 私 用 、 滥 用 。 大 数据 
为 所 谓 的 大 多 数 人 服务 , 削弱 了 少数 人 的 利益 , 这 将 会 造成 恶劣 的 影响 。 总 之 ， 
大 数据 的 崛起 对 于 整个 社会 而 言 ， 无 疑 是 一 个 亚 梦 。 

无 论 人 们 对 于 以 互联 网 和 人 工 智 能 为 代表 的 信息 革命 期 竺 也 时 ， 恕 以 也 
罢 ,， 它 就 那么 到 来 了 。 大 数据 的 应 用 已 经 大 大 地 改变 了 人 类 世界 ， 从 全 球 的 视 
野 来 看 ， 大 数据 的 未 来 是 什么 ”人 们 对 于 大 数据 的 态度 有 哪些 共识 与 分 歧 ? 对 
于 企业 家 和 政策 制定 者 来 说 ， 应 该 如 何 面 对 大 数据 ? 
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p411 “智慧 地 球 ” 正 式 提出 
2008 4F 11 H 6 H, IBM 总 裁 兼 首席 执行 官 彭 明 感 (Sam Palmisano ) 在 
纽约 召开 的 外 国 关系 理事 会 上 ， 首 次 正式 提出 了 “智慧 地 球 ”( Smart Planet ) 
的 概念 。 
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图 4-1 IBM 提 出 的 “智慧 地 球 ”? 


2009 年 1 月 28 日 ,奥巴马 就 任 美国 总 统 后 ， 与 美国 工商 业 领 袖 举 行 了 
次 “圆桌 会 议 ”。 作 为 仅 有 的 两 名 代表 之 一 ，IBM RT ZIRE H 


O 图 片 来 源 : IBM 官方 网 站 ， 网 址 : http://www.ibm.com/smarterplanet/cn/zh/index.html?crs=apch_ccsl_ 
20120229 _1330515863559&cm=k&cr=Google&ct=201AG27W&ck=ibmtsmart+planet&cemp=201 AG, 
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“智慧 地 球 ” 这 一 概念 ， 建 议 新 政府 投资 新 一 代 的 智慧 型 基础 设施 ， 曾 明 其 短 
期 效益 和 长 期 效益 。 奥 巴 马 对 “智慧 地 球 ” 给 予 了 积极 的 回应 :“ 经 济 刺激 资 
金 将 会 投入 到 宽带 网 络 等 新 兴 技 术 中 去 ， 毫 无 疑问 ， 这 就 是 美国 在 21 世纪 保 
持 和 夺回 竞争 优势 的 方式 。”( 张 永 民 ，2010 ) “智慧 地 球 ” 被 认为 是 挽救 危机 、 
振兴 经 济 、 确 立 美国 在 未 来 竞争 优势 的 关键 所 在 , 并 将 上 升 为 美国 的 国家 战略 。 
奥巴马 政府 在 出 台 的 “7870 亿美 元 经 济 刺激 计划 ”中 ,针对 宽带 基础 设施 建设 、 
医疗 电子 档案 、 电 网 以 及 学 校 IT 基础 设施 等 “智慧 地 球 ” 的 相关 内 容 制定 了 
战略 规划 和 对 其 进行 了 大 规模 投资 (工业 和 信息 化 软件 与 集成 电路 促进 中 心 ， 
2009 )。 

SRE (2008) 在 《智慧 地 球 ， 下 一 代 领 导 人 议程 》 中 指出 : 这 个 世界 已 
经 紧密 相连 ， 不 论 是 在 经 济 、 技 术 还 是 在 社会 层面 。 但 是 我 们 也 知道 仅仅 连接 
是 远 远 不 够 的 。 是 的 ， 世 界 会 变 得 越 来 越 “ 平 "。 地 球 变 得 越 来 越 小 ， 人 类 联 
系 也 将 更 加 紧密 。 但 是 ， 有 一 点 变化 潜力 无 穷 。 那 就 是 ， 我 们 的 地 球 变 得 越 来 
越 “ 智 能 化 "。 这 不 是 简单 的 一 个 词 ， 它 是 指 将 智能 技术 应 用 到 生活 的 各 个 
方面 ， 如 应 用 到 各 系统 和 程序 之 中 ， 以 便 货 物 能 被 顺利 地 研发 、 制 造 、 购 买 ， 
人 们 能 享受 各 种 服务 ， 万 物 ( 包括 人 、 货 币 、 石 油 、 水 电 等 ) 可 以 顺畅 流通 ， 
人 们 可 以 安居 乐 业 。 

智能 系统 已 经 彻底 改变 了 电网 、 供 应 链 和 水 源 管理 。 它 们 可 以 确保 药物 货 
真 价 实 ， 确 保 外 汇 兑换 安全 可 靠 。 它 们 改变 了 一 切 ， 从 公司 的 业务 模型 到 如 何 
促使 员工 协作 并 进行 创新 等 都 有 了 变化 。 

智能 架构 逐渐 成 为 国家 、 区 域 和 城市 之 间 竞 争 的 基础 。 在 全 球 经 济 一 体 化 
这 种 大 背景 下 ， 投 资 和 工作 不 仅仅 只 是 流向 可 提供 成 本 利益 、 技 能 和 专门 技术 
的 区 域 。 更 重要 的 是 它 将 流向 那些 能 提供 智能 架构 的 国家 、 地 区 和 城市 一 一 高 
效 运 输 系统 、 现 代 化 的 机 场 ， 安 全 的 贸易 通道 ， 可 靠 的 电网 、 透 明 且 可 信赖 的 
市 场 还 有 更 高 质量 的 生活 。 


和 4.1.2 智慧 地 球 的 含义 


TBM 的 “智慧 地 球 ” 战 略 提出 ， 把 感应 器 嵌入 和 装备 到 各 种 物体 中 并 被 
普遍 连接 ， 形 成 “ 物 联 网 ”; 借助 这 个 整合 能 力 超 强 的 网 络 ， 对 网 络 内 的 人 员 、 
机 器 、 设 备 和 基础 设施 进行 实时 管理 和 控制 ， 继 而 使 人 类 能 以 更 加 精细 和 动态 
的 方式 管理 生产 和 生活 ， 达 到 “智慧 ”状态 。 其 本 质 是 建立 在 物 联网 基础 上 的 
更 加 系统 和 智能 的 信息 服务 ， 或 者 说 ， 利 用 互联 网 实现 物 物 互联 并 形成 海量 数 
据 ， 再 借助 专家 智慧 和 多 样 化 的 服务 模式 ， 为 政府 、 企 业 等 提供 便捷 的 个 性 化 
服务 或 系统 解决 方案 。 而 IBM 则 希望 “智慧 地 球 ” 推 动 器 进一步 向 高 端 服务 
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业 企业 转型 ,“ 互 联网 + 物 联网 ”是 实现 其 转型 的 工具 ( 张 旭 等 ，2011 )。 

IBM 商业 价值 研究 院 的 报告 《智慧 地 球 赢 在 中 国 》 指 出 ,“ 智 慧 地 球 ” 的 
核心 是 以 一 种 更 智慧 的 方法 ， 利 用 新 一 代 信 息 技术 来 改变 政府 、 公 司 和 人 们 交 
流 的 方式 ， 以 便 提 高 交流 的 明确 性 、 T 灵活 性 和 响应 速度 。 如 今 信 息 基础 
架构 与 高 度 整合 的 基础 设施 的 完美 结合 ， 使 得 政府 、 企 业 和 市 民 可 以 做 出 更 明 
智 的 决策 。 知 慧 方法 具体 来 说 具有 以 下 二 个 方面 特征 , 更 透彻 的 感知 ， 更 全 面 
互联 互通 ， 更 深入 的 智能 化 HARE, 2009), 

更 透彻 的 感知 , 是 超越 传统 传感器 、 数 码 相机 和 REID 的 更 为 广泛 的 概念 。 
具体 来 说 , 它 利 用 的 是 任何 可 以 随时 随地 感知 、 测量 、 捕 获 和 传递 信息 的 设备 、 
系统 或 流程 。 通 过 使 用 这 些 新 设备 ， 从 人 的 血压 到 公司 财务 数据 或 城市 交通 状 
况 等 任何 信息 都 可 以 被 快速 获取 并 进行 分 析 ， 便 于 人 们 立即 采取 应 对 措施 和 进 
行 长 期 规划 。 

更 全 面 互联 互通 ， 是 指 通过 各 种 形式 的 高 速 宽带 通信 网 络 工 具 ， 将 个 人 电 
子 设 备 、 组 织 和 政府 信息 中 收集 和 储存 的 分 散 信息 及 数据 连接 起 来 ， 进 行 交 互 
和 多 方 共享 ， 从 而 更 好 地 对 环境 和 业务 状况 进行 实时 监控 ， 从 全 局 的 角度 分 析 
形势 并 实时 解决 问题 ， 使 得 工作 和 任务 可 以 通过 多 方 协作 得 以 远程 完成 ， 从 而 
彻底 地 改变 了 整个 世界 的 运作 方式 。 

更 深入 的 智能 化 ， 是 指 深 入 分 析 收集 到 的 数据 ， 以 获取 更 加 新 颖 、 系 统 且 
全 面 的 洞察 来 解决 特定 问题 。 这 要 求 使 用 先进 技术 〈 如 数据 挖 握 和 分 析 工 具 、 
科学 模型 和 功能 强大 的 运算 系统 ) 来 处 理 复杂 的 数据 分 析 、 汇 总 和 计算 ， 以 便 
整合 和 分 析 海量 的 跨 地 域 、 跨 行业 和 职能 部 门 的 数据 和 信息 ， 并 将 特定 的 知识 
运用 到 特定 行业 、 特定 的 场景 、 特定 的 解决 方案 中 , 以 更 好 地 支持 决策 和 行动 。 

“智慧 地 球 ” 的 愿景 是 将 世界 运行 到 一 个 更 高 的 智慧 水 平 ， 使 个 人 、 企 业 、 
组 织 、 政 府 、 自 然 系 统 和 人 造 系统 的 交互 方式 更 具 智慧 。 每 次 交互 就 意味 着 有 
机 会 以 更 完美 、 更 高 效 和 更 多 产 ee ee 
来 越 智慧 ， 为 人 类 开创 更 为 广阔 的 前 景 CAH, 2008 )。 


和 4.1.3 智慧 地 球 ， 从 智慧 城市 开始 


TBM 在 《智慧 城市 白皮书 》 报 告 中 指出 ，21 世纪 的 “智慧 城市 "， 能 够 充 
分 运用 信息 和 通讯 技术 手段 感 测 、 分 析 、 整 合 城市 运行 核心 系统 的 各 项 关键 信 
息 ， 从 而 对 于 包括 民生 、 环 保 、 公 共 安 全 、 城 市 服务 、 工 商业 活动 在 内 的 各 种 
需求 做 出 知 能 的 响应 ， 为 人 类 创造 更 美好 的 城市 生活 。 

由 中 国电 信 智 慧 城市 研究 组 编著 的 《智慧 城市 之 路 》 一 书 中 提 到 ,“ 智 慧 
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城市 ”是 按照 科学 的 城市 发 展 理 念 ， 利 用 新 一 代 信息 技术 ， 在 泛 在 信息 全 面 感 
知 和 互联 的 基础 上 ， 实 现 人 、 物 、 城 市 功能 系统 之 间 无 颖 连接 与 协调 联动 的 智 
能 自 感知 、 自 适应 、 自 优化 ， 从 而 对 民生 、 环 保 、 公 共 安 全 、 城 市 功能 、 商 务 
活动 等 多 种 城市 需求 作出 智能 的 响应 , 形成 具备 可 持续 内 生动 力 的 安全 、 便捷 、 
高 效 、 绿 色 的 城市 生态 。 智 慧 城市 实现 的 是 城市 系统 的 优化 升级 ， 使 城市 各 系 
统 更 完善 、 更 智能 、 更 协调 、 更 发 达 ， 使 城市 中 的 人 和 物 更 智慧 、 更 和 谐 ， 使 
城市 中 的 人 生活 更 幸福 。 

“智慧 城市 ”是 一 个 不 断 演 进 的 发 展 主题 ， 是 信息 技术 发 展 到 一 定 阶段 的 
产物 , 并 随 着 技术 、 经 济 和 社会 的 发 展 不 断 持续 完善 。 从 技术 的 狭义 角度 来 看 ， 
智慧 城市 构建 了 未 来 城市 的 技术 信息 基础 ， 有 力 地 支撑 了 城市 的 发 展 。“ 智 慧 
城市 ” 带 来 的 改变 不 仅 限 于 理念 范畴 ， 它 将 对 城市 的 生产 方式 、 生 活 方式 、 交 
换 方式 、 公 共 服 务 、 政 府 决策 、 市 政 管理 、 社 会 民生 等 方面 产生 巨大 而 深远 的 
变革 (中 国电 信 智 慧 城市 研究 组 ，2011 )。 

IBM 在 《智慧 城市 白皮书 》 中 为 “智慧 城市 ”概括 出 以 下 定义 : 

“智慧 城市 ”策略 就 是 : 在 城市 发 展 过 程 中 ,在 其 管辖 的 环境 、 公 用 事业 、 
城市 服务 公民 和 本 地 产业 发 展 中 充分 利用 信息 通信 技术 OCT ), 智慧 地 感知 、 
分 析 、 集 成 和 应 对 地 方 政府 在 行使 经 济 调节 、 市 场 监管 、 社 会 管理 和 公共 服务 
政府 职能 的 过 程 中 的 相关 活动 与 需求 ， 创 造 一 个 更 好 的 生活 、 工 作 、 休 息 和 娱 
乐 环 境 ， 为 了 抓 住 机 遇 和 构建 可 持续 的 繁荣 ， 城 市 需要 变 得 更 加 “智慧 "。 

在 操作 层面 上 ， 城 市 由 关系 到 城市 主要 功能 的 不 同类 型 的 网 络 、 基 础 设施 
和 环境 的 六 个 核心 系统 组 成 :组 织 ( 人 )、 业务 / 政务、 交通 、 通 讯 、 水 和 能 
源 。 城 市 的 组 织 系统 包括 公共 安全 、 健 康 和 教育 ， 这 些 是 能 否 给 市 民 提 供 一 
个 高 质量 的 生活 的 重心 : 城市 的 业务 / 政务 系统 代表 着 业务 所 面临 的 政策 和 管 
制 环境 ; 城市 通过 交通 系统 提供 给 组 织 和 业务 / 政务 相互 移动 的 能 力 ; 并 通过 
通讯 系统 来 共享 信息 和 沟通 ; 城市 也 将 为 经 济 和 社会 活动 提供 两 个 必要 的 公用 
设施 一 一 水 和 能 源 等 。 

这 些 系统 不 是 零散 的 ， 而 是 以 一 种 协作 的 方式 相互 衔接 ， 有 效 地 促进 执行 
力 和 高 效 性 。 这 六 个 核心 实际 上 变 成 了 “系统 中 的 系统 ”。 

尽管 如 此 ， 当 重要 和 积极 的 转变 需要 提供 潜能 时 ,“ 系 统 中 的 系统 ”的 每 
个 元 素 都 面临 着 重要 的 挑战 和 威胁 。 例 如 ， 城 市 面临 着 极其 重大 的 健康 保健 问 
题 ， 像 婴儿 的 死亡 率 、 世 界 各 地 流行 艾滋 病 问题 ; 对 于 政务 来 说 ， 必 须 在 城市 
系统 调整 和 以 满足 减少 行政 费用 支出 的 要 求 之 间 找 到 一 种 平衡 ; 低 效率 的 交通 
系统 导致 运营 费用 的 增加 ; 随 着 居民 和 商业 通信 需求 额 的 增加 ， 城 市 又 面临 着 
挑战 ; 水 资源 短缺 影响 社会 稳定 和 生活 质量 ; 当前 的 能 源 管理 监控 系统 常常 不 
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能 提供 稳定 的 检测 并 且 管 控 效 能 低下 ， 在 安全 和 效率 方面 都 需要 改进 。 

当 城 市 面临 这 些 实质 性 的 挑战 时 ， 当 前 的 模式 显然 不 再 是 可 行 的 方式 。 城 
市 必须 使 用 新 的 措施 和 能 力 使 城市 管理 变 得 更 加 智能 。 城 市 必须 使 用 新 的 科技 
去 改善 它们 的 核心 系统 ， 从 而 最 大 限度 地 优化 和 利用 有 限 的 资源 。 

智慧 城市 是 一 种 看 待 城市 的 新 角度 ， 是 一 种 发 展 城市 的 新 思路 。 它 要 求 城 
市 的 管理 者 和 运营 者 把 城市 本 身 看 成 是 一 个 生命 体 ， 要 求人 们 认识 到 ， 城 市 本 
身 不 是 若干 功能 的 简单 又 加 。 城 市 是 一 个 系统 ， 城 市 中 的 人 、 交 通 、 能 源 、 商 
业 、 通 信 这 些 过 去 被 分 别 考 虑 、 分 别 建设 的 领域 ,实际 上 是 普遍 联系 、 相 互 促 
进 、 彼 此 影响 的 整体 ( 陈 柳 钦 ，2011 )。 

智慧 城市 包括 四 个 要 素 : 全 面 物 联 、 充 分 整合 、 激 励 创 新 和 协同 运作 。 

全 面 物 联 : 智能 传 感 设备 将 城市 公共 设施 物 联 成 网 ， 对 城市 运行 的 核心 系 
统 实时 感 测 。 

充分 整合 : 物 联网 与 互联 网 系统 完全 连接 和 融合 ， 将 数据 整合 为 城市 核心 
系统 的 运行 全 图 ， 提 供 智慧 的 基础 设施 。 

激励 创新 : 鼓励 政府 、 企 业 和 个 人 在 智慧 的 基础 设施 上 进行 科技 和 业务 的 
创新 应 用 ， 为 城市 提供 源源 不 断 的 发 展 动力 。 

协同 运作 : 基于 智慧 的 基础 设施 ， 城 市 里 的 各 个 关键 系统 和 参与 者 进行 和 
谐 高 效 的 协作 ， 达 成 城市 运行 的 最 佳 状态 ( 秦 洪 花 等 ，2010 )。 


04.1.4 智慧 城市 模式 比较 


日 本 和 韩国 的 智慧 城市 基于 u (ubiquitous ) -city, 即 以 任何 时 间 任何 地 点 、 
任何 电子 装置 等 可 以 随时 获得 信息 和 服务 的 环境 整体 为 发 展 目标 。 近 年 来 ， 日 
本 的 智能 城市 也 更 关注 对 环境 的 保护 。2010 年 8 月 横滨 市 、 丰 田 市 、 京 都 市 
和 北九州 市 四 个 地 区 公布 了 智能 城市 的 总 体 规划 ,其 核心 是 建设 生态 智能 城市 。 
横滨 市 主要 通过 大 量 引 入 可 再 生 能 源 与 电动 汽车 ， 对 家 庭 、 建 筑 物 和 社区 实施 
智能 能 源 管理 。 京 都 市 将 对 各 类 能 源 管理 的 高 端 技术 进行 实验 。 

欧洲 的 智慧 城市 则 更 关注 城市 的 生态 环境 和 智能 经 济 的 形成 。2009 年 10 
月 ， 欧 盟 公 布 了 新 的 能 源 研究 投资 方案 ， 其 中 将 为 智慧 城市 项 目 投资 110 亿 
欧元 ， 在 25~30 个 城市 中 发 展 低 碳 住宅 和 交通 。 一 个 名 为 “European Smart 
Cities” 的 学 术 项 目 认 为 智慧 城市 的 六 个 要 件 是 : 智慧 经 济 ( 创意 产业 )、 人 才 、 
智慧 政府 、 智 慧 交 通 和 基础 设施 、 智 慧 环 境 和 智慧 生活 。 

高 科技 产业 的 发 展 是 新 加 坡 、 马 来 西亚 等 一 些 东 南亚 国家 建设 智慧 城市 的 
重点 。 新 加 坡 提出 到 2015 年 打造 “智慧 国 ” 的 战略 ， 其 主要 内 容 是 建立 无 处 
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不 在 的 信息 网 络 ， 同 时 发 展 通信 产业 。 马 来 西亚 几乎 以 美国 硅谷 为 蓝本 建设 多 
WAGES, Ziti 750 平方 公里 的 狭长 区 域 ， 其 中 将 建设 12 个 智慧 城市 。 

由 于 缺乏 全 国 性 的 政策 和 标准 ， 中 国 的 智慧 城市 概念 模糊 ， 现 阶段 更 多 的 
是 强调 IT 基础 设施 建设 ， 缺 乏 整合 城市 功能 的 统一 平台 的 建设 。 智 慧 城市 概 
念 与 生态 城市 、 低 碳 城市 、 数 字 城 市 等 重 释 。 中 国 的 智慧 城市 多 是 单一 或 少数 
几 个 城市 功能 或 行业 的 信息 化 ， 以 及 信息 相互 连通 ， 而 统一 智慧 平台 的 建设 较 
少 。 同 时 ， 由 于 缺乏 智慧 城市 所 需 的 产品 和 技术 ， 许 多 城市 将 建立 智慧 城市 相 
关 产 业 作为 重点 ， 同 时 也 借 此 吸引 新 投资 。 为 解决 中 国 高 速 、 大 规模 城市 化 带 
来 的 各 类 问题 ， 针 对 城市 生态 改善 和 公共 服务 的 应 用 是 中 国 智慧 城市 建设 的 核 
心 (中 国 三 星 经 济 研究 院 ，2011 )。 

在 新 经 济 形式 下 的 城市 化 变革 中 ， 对 于 城市 规划 和 管理 、 社 会 稳定 与 社会 
安全 、 就 业 、 民 生 、 可 持续 发 展 等 各 方面 都 提出 了 严峻 挑战 。 致 力 于 支持 政府 
建造 更 加 智慧 的 城市 ， 公 民 和 企业 可 以 便捷 地 享受 优质 的 公共 服务 ， 各 种 突 发 
事件 可 以 被 迅速 有 效 地 应 对 、 解 决 ， 保 证 城市 各 个 系统 高 效 顺畅 地 运转 以 及 可 
持续 地 发 展 。 


42) 公众 意见 的 分 歧 和 | | | 


美国 皮 尤 研究 中 心 与 伊 隆 大 学 关于 “大 数据 对 未 来 的 影响 ”的 民意 调查 显 
示 出 了 人 们 对 大 数据 态度 的 分 歧 ，53% 的 人 持 乐 观 态度 ，39% 的 人 却 认为 大 
数据 的 凯 起 对 人 类 而 言 是 焉 梦 。 

以 下 是 受 访 者 主要 观点 的 集 纳 (Janna et al., 2012 ): 


14.2.1 积极 态度 


一 种 主流 的 乐观 态度 认为 ， 到 2020 年 ， 大 数据 的 运用 将 增进 我 们 对 于 
自己 和 志 界 的 理解 。“ 媒 体 和 监管 者 妖魔 化 了 大 数据 及 其 对 隐私 的 威胁 ,”Jeff 
Jarvis 教授 说 ,“ 这 些 道德 恺 慌 通常 是 由 技术 变革 引发 的 。 但 是 还 存在 这 样 的 
道德 事实 : 我 们 能 够 在 大 数据 中 发 现价 值 ， 并 且 在 最 新 发 现 的 公共 性 中 找到 价 
值 。 谷 歌 的 创始 人 已 经 呼吁 政府 监管 者 不 要 要 求 他 们 快速 删除 相关 搜索 ， 因 为 
他 们 已 经 能 够 在 医疗 官员 之 前 追踪 到 流感 疫情 。 而 且 他 们 相信 类 似 的 传染 病 疫 
情 追 踪 将 拯救 数 百 万 人 的 生命 。 妖 魔 化 数据 ， 不 论 是 大 数据 还 是 小 数据 ， 就 等 
于 妖魔 化 知识 。 这 显然 是 不 明智 的 。” 

Mead&Clark 分 析 师 Sean Mead 认为 :“ 大 规模 的 公共 数据 集 、 更 便利 的 工 
具 、 分 析 技 术 更 广泛 的 推广 、 初 阶段 的 人 工 智能 软件 将 点 燃 经 济 活动 的 爆 点 ， 
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相 比 20 世纪 90 年 代 的 互联 网 和 个 人 电脑 革命 ， 能 更 大 地 提高 生产 力 。” 

哈佛 大 学 柏 克 曼 中 心 David Weinberger 认为 :“ 我 们 刚 开始 对 大 数据 可 以 
解决 的 问题 有 所 了 解 。 我 们 掌握 的 知识 将 会 宫 括 我 们 之 前 所 不 能 理解 的 更 多 真 
理 ， 因 为 我 们 人 类 的 大 脑 是 如 此 狭小 。” 

企业 家 Bryan Trogdon 说 :“ 大 数据 就 是 新 的 石油 。 对 于 企业 、 政 府 和 机 构 
来 说 ， 资 源 的 开发 意味 着 极 大 的 优势 。 速 度 、 敏 捷 和 创新 决定 着 谁 输 谁 赢 ， 大 
数据 使 我 们 从 过 去 的 “ 臂 一 次 柴 前 测量 两 次 ”的 思维 模式 转向 “快速 下 小 注 ” 。” 

同时 ， 乐 观 态度 还 相信 “即时 预报 ”、 实 时 数据 分 析 和 模式 识别 必定 会 更 
加 完善 。 

谷歌 首席 经 济 学 家 Hal Varian 认为 :“ 我 是 即时 预报 的 忠实 支持 者 。 几 乎 
所 有 大 公司 都 有 实时 数据 库 ， 掌 握 有 比 政府 机 构 更 多 的 即时 经 济 数据 。 在 未 来 
的 十 年 ， 政 府 也 可 以 利用 私企 的 数据 。 这 将 会 推动 制定 更 加 人 全面、 主动、 有 效 
的 财政 和 货币 政策 。” 

迈阿密 大 学 环境 工程 学 生态 经 济 主 任 Gina Maranto 认为 :“ 全 球 气候 变化 
的 情况 下 ， 为 了 使 我 们 的 社会 对 人 为 污染 和 极端 天 气 条 件 更 加 敏感 和 适应 ， 即 
时 预报 势 在 必 行 。 然 而 ， 光 有 数据 还 不 行 ， 我 们 必须 对 决策 制定 有 更 加 深刻 的 
理解 ， 这 需要 我 们 扩展 对 意识 偏见 及 多 方 合 作 的 理解 。 

电影 制作 人 Tiffany Shian 认为 :“ 大 数据 使 我 们 看 到 之 前 从 未 看 到 的 模式 。 
这 种 相互 依赖 和 联系 会 带 给 我 们 一 种 全 新 的 看 待 问题 的 方式 。 它 使 我 们 能 实时 
看 到 我 们 行为 的 结果 和 影响 。 我 们 买 什么 、 吃 什么 、 扔 掉 什 么 都 会 呈现 在 实时 
地 图 中 。 我 们 可 以 及 时 看 到 自己 行为 造成 的 连锁 反应 。” 

乐观 态度 还 认为 ， 尽 管 大 数据 的 应 用 必然 会 带 来 一 些 负 面 影响 ， 但 总 的 来 
说 是 利 大 于 弊 。“ 互 联网 放大 了 日 常生 活 中 的 好 、 坏 和 丑恶 ”>， 微 软 高 级 研究 员 
Danah Boyd 说 ,“ 当 然 这 些 会 被 善意 或 是 不 怀 好 意 地 利用 。 科 幻 小 说 为 我 们 提 
供 了 无 数 想象 的 模板 。 但 是 二 分 法 却 不 会 给 我 们 带 来 任何 好 处 。 有 意思 的 是 ， 
经 济 交 流 和 信息 共享 如 何 发 生变 化 ， 会 为 我 们 开启 未 曾 想象 过 的 可 能 性 。 这 意 
味 着 我 们 将 失去 已 有 的 一 部 分 ， 迎 来 新 的 可 能 性 。” 


142.2 ”对 大 数据 的 忧 思 


持 相 反观 点 的 人 们 对 大 数据 的 未 来 抱 有 悲观 态度 。 

通讯 专家 Oscar Gandy 说 :“ 有 必要 多 思考 一 下 损害 在 大 、 中 、 小 型 数据 收 
集 者 、 代 理 者 和 用 户 之 间 的 传播 。 如 果 大 数据 的 运用 是 处 于 社会 效益 而 非 利益 
追逐 ， 那 么 我 将 支持 数据 未 来 及 物 联 网 。 
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Wolters Kluwer 的 高 级 分 析 师 Marcia Richards Suelzer 说 :“ 我 们 可 以 在 纳 
秒 之 间 做 出 灾难 性 的 错误 计算 ,并 将 其 推广 开 来 。” 

受 访 者 担心 政府 和 企业 没有 分 享 信息 的 动力 。 对 他 们 来 说 ， 监 管 才 是 大 数 
据 的 核心 。 

GlobalSecurity.org 负责 人 John Pike 说 :“ 这 个 世界 太 复 杂 了 ， 很 难 戏 入 到 
如 此 无 差别 的 大 数据 概念 中 。 我 们 讨论 的 到 底 是 谁 的 大 数据 ?华尔街 的 ?谷歌 
的 ? 还 是 国家 安全 局 的 ? 我 本 身 无 比 渺小 ， 对 于 大 的 概念 不 感 兴趣 。” 

另外 一 个 匿名 人 士 说 :“ 数 据 整合 在 今天 只 有 两 个 原因 : 国家 安全 装置 和 市 
场 数据 库 。 这 都 不 是 从 网 络 个 体 用 户 的 利益 出 发 ， 反 而 要 么 将 这 些 用 户 当做 洪 
在 的 妨 怖 主义 分 子 ， 要 么 将 他 们 当做 产品 和 服务 的 消费 者 。 

另 一 位 匿名 受 访 者 说 ,“ 人 金钱 是 大 数据 发 展 的 主要 刺激 因素 。 最 后 的 结果 
很 有 可 能 是 ， 大 数据 将 聚焦 在 使 目标 群体 消费 更 多 的 产品 。 在 我 看 来 这 无 益 于 
社会 的 发 展 。 我 不 会 说 这 是 一 种 滥用 ,但 是 这 是 一 种 利己 主义 。” 

还 有 一 种 担忧 是 ， 富 人 将 会 从 大 数据 中 获 益 ， 穷 人 则 不 能 。 

加 州 大 学 伯克利 分 校 讲师 Brian Harvey 说 :“ 大 数据 是 在 牺牲 穷人 的 基础 
上 ， 使 富 人 获 益 。 我 认为 有 小 部 分 人 会 把 这 看 成 是 积极 因素 。 你 们 给 出 的 两 个 
选项 “造福 社会 ”或 者 “危害 社会 ”应 该 改 为 “ 富 人 获 益 ”或 者 “穷人 获 益 "。 
根本 没有 什么 社会 可 言 ， 只 有 富裕 、 贫 困 以 及 阶级 斗争 。 是 的 ， 我 知道 非洲 的 
农民 用 手机 追踪 大 城市 里 的 产品 价格 。 这 是 好 的 ， 但 还 不 够 。” 

一 些 受 访 者 担忧 大 数据 会 被 滥用 。 

一 位 校长 Heywood Sloane 说 :“ 这 并 不 是 互联 网 或 大 数据 的 问题 ， 而 是 什 
么 人 多少 人 将 会 滥用 大 数据 的 问题 ,不 论 有 意 还 是 无 意 ,这 样 的 问题 一 直 存在 ， 
所 以 需要 能 抵抗 滥用 的 力量 : 竞争 、 透 明 、 监 察 ， 等 等 。 当 然 有 时 也 会 判断 
错误 。” 

教育 家 Tom Rule 说 :“ 永 远 不 要 低估 人 性 的 思春 和 罪恶 。” 

一 位 匿名 受 访 者 说 :“ 数 据 被 滥用 有 很 多 原因 ， 解 决 方法 不 是 去 控制 数据 
的 收集 ， 而 是 加 强大 家 对 数据 滥用 的 教育 ， 提 高 合理 使 用 数据 的 意识 。” 


1423 ”喜忧参半 的 看 法 


来 自 纽约 的 研究 咨询 媒体 公司 的 负责 人 Stowe Boyd 认为 :“ 总 体 而 言 ， 物 
联网 和 大 数据 推动 了 我 们 感知 、 理 解 和 控制 这 个 世界 的 能 力 。 但 是 ,潜藏 的 分 
析 机 器 仍然 需要 人 类 识别 和 管理 。 就 像 最 明亮 的 光线 也 会 投下 最 黑暗 的 影子 一 
样 , 大 数据 也 有 其 黑暗 的 一 面 。 它 为 不 端的 应 用 创造 了 机 会 , 比方 说 监控 社会 ， 


85 


86 


大 数据 BIG DATA 


官方 监视 和 分 析 我 们 的 一 举 一 动 。 另 一 方面 ， 大 数据 带 来 了 福音 。 社 会 宣传 群 
体 可 以 低 成 本 甚至 零 成 本 收集 到 需要 的 信息 ， 这 在 今天 是 不 可 能 做 到 的 。 以 避 
开国 际 粮食 组 织 控制 、 将 区 域内 的 事物 生产 者 和 消费 者 联系 起 来 的 草根 发 明 替 
代 事 物 网 络 为 例 ， 这 种 被 称 为 事物 科技 的 系统 ， 很 可 能 是 基于 人 们 的 消费 、 农 
民 的 生产 计划 、 区 域内 的 物流 工具 等 公开 信息 之 上 的 。 所 以 像 所 有 人 类 的 科技 
变革 一 样 ， 大 数据 也 是 让 人 喜忧参半 。” 

未 来 研究 院 创始 人 Jerry Michalski 用 一 种 实际 的 方式 描述 了 大 数据 的 好 与 
坏 :“ 回 想起 来 ， 人 们 总 是 认为 自己 比 实际 知道 得 多 。 比 如 说 ,我们 对 于 科技 
效果 的 理解 要 滞后 于 对 其 实施 效果 的 理解 。 人 们 最 好 的 意愿 是 用 大 数据 解决 大 
问题 ， 但 是 却 不 能 如 愿 达成 。 好 的 创意 已 经 引发 了 无 数 糟糕 的 决定 。 想 想 多 米 
诺 骨 牌 效 应 、 优 生 学 和 种 族 优越 论 ， 甚 至 是 优胜 劣 汰 。 正 是 这 些 理论 使 我 们 不 
断 犯错 。 同 时 ， 恶 意 使 用 大 数据 将 会 产生 巨大 的 危害 ， 从 对 人 口 的 隐形 操控 到 
各 种 形式 的 隐私 侵犯 。 那 些 反 乌 托 邦 的 电影 离 我 们 的 现实 不 再 遥远 。fMRI X 
验 中 得 出 的 数据 使 我 们 确信 我 们 明白 人 们 如 何 做 出 决策 ， 从 而 导致 我 们 做 出 了 
更 多 的 错误 政策 。 当 然 也 有 和 希望 。 当 人 们 开始 围绕 真实 数据 一 起 工作 时 ， 他 们 
会 取得 真正 的 进步 。Wikipedia 、OpenStreetMap 、CureTogether 等 都 是 互联 网 
时 代 的 产物 。 我 们 需要 大 数据 创造 更 多 的 小 群体 ， 与 各 地 的 小 群体 一 起 合作 ， 
创造 更 加 实用 的 产品 和 服务 。 谷 歌 已 经 运用 大 数据 找到 了 解决 拼写 检查 和 翻译 
等 棘手 问题 的 简单 方法 ， 更 不 用 说 疫情 追踪 等 。 我 县 惧 谷 歌 的 巨大 威力 ， 但 却 
敬佩 他 们 清晰 简洁 的 方式 。” 

《未 来 》 杂 志 副 主编 Patrick Tucker 认为 这 些 变革 为 “可 知 未 来 ”增加 了 新 
维度 : 脸谱 和 谷歌 之 类 的 服务 可 以 帮助 我 们 更 好 地 理解 生活 。 但 是 脸谱 对 于 我 
们 生活 和 社交 圈 的 观点 要 远 远 比 我 们 自己 的 看 法 更 加 清晰 。 问 题 来 了 ,还 有 哪 
些 人 可 以 使 用 这 架 显微镜 ? 同时 ， 也 有 很 多 问题 随 之 而 来 。Moveon.org 总 裁 
Eli Pariser 在 他 的 新 书 《 过 滤 泡 沫 》( The Filter Bubble) 中 将 其 描述 为 “信息 决 
定 主义 ”， 是 网 络 过 于 个 人 化 不 可 避免 的 结果 。“ 你 过 去 的 点 击 将 决定 你 未 来 将 
要 看 到 的 内 容 ， 这 种 互联 网 历史 将 不 断 重演 。 你 将 陷入 一 种 停滞 的 、 越 发 狭小 
的 恶性 循环 。” 

谷歌 和 脸谱 仅仅 是 最 明显 的 麻烦 ， 因 为 它们 使 用 那些 数据 向 你 提供 服务 。 
但 是 你 也 可 以 选择 退出 脸谱 ， 事实 上 已 经 有 数 百 万 人 不 再 使 用 脸谱 。 虽 然 将 谷 
歌 清除 出 你 的 生活 并 不 像 十 年 前 那么 容易 ， 但 是 可 以 匿名 使 用 谷歌 ,也 可 以 不 
用 谷歌 就 可 以 找到 信息 。 这 是 我 们 可 以 选择 进入 或 退出 的 网 络 。 

未 来 机 器 接管 了 创造 未 来 的 任务 。 他 们 的 预测 将 对 现实 世界 造成 影响 ， 因 
为 个 人 人、 群体 和 国家 对 于 未 来 的 互动 成 为 个 人 和 国家 身份 的 一 种 表达 。 不 管 将 


第 4 章 ” 大 数据 前 瞻 


会 发 生 什么 ， 未 来 作为 一 种 概念 ， 将 塑造 我 们 的 消费 、 投 票 和 社会 行为 。 未 来 
越 来 越 易 知 。 我 们 正 站 在 科技 巨大 革命 面前 。 


4.8) 企业 领导 者 如 何 迎接 大 数据 时 代 的 到 来 目 | | 


麦肯锡 的 大 数据 报告 指出 : 随 着 大 数据 的 价值 日 益 增 长 ， 针 对 大 数据 的 智 
能 开发 也 成 为 企业 竞争 的 关键 。 我 们 已 经 看 到 许多 企业 已 经 先 于 其 同行 业者 在 
公司 绩效 评估 等 过 程 中 运用 大 数据 ,大 数据 将 成 为 不 同 领域 间 竞 争 的 重要 基础 ， 
所 以 将 大 数据 列 人 其 商业 计划 势 在 必 行 (James et al., 2011 )。 

不 同 领域 运用 大 数据 创造 价值 的 机 会 不 同 ， 麦 肯 锡 的 报告 建议 ， 要 想 充 分 
利用 大 数据 的 力量 ， 还 要 解决 如 下 一 系列 的 问题 。 


14.3.1 ”库存 数据 资产 : SA. AA WS 


随 着 数据 变 成 主要 的 竞争 资产 ， 领 导 者 必须 了 解 自己 持 有 和 可 以 使 用 的 资 
产 。 机 构 应 该 建立 专利 数据 的 存货 清单 ， 对 有 可 能 使 用 的 数据 进行 系统 编 录 ， 
包括 公共 数据 〈 比如 政府 数据 和 公共 领域 发 布 的 数据 ) 和 已 经 购买 的 数据 ( 比 
如 从 数据 价值 链 中 的 数据 收集 者 处 买 来 的 数据 )。 

确实 ， 要 获得 转变 的 机 会 ， 企 业 越 来 越 需要 从 第 三 方 处 获取 信息 ， 并 将 这 
些 信息 与 自己 已 经 掌握 的 信息 进行 整合 。 在 有 些 情况 下 ， 企 业 还 需 购买 数据 的 
使 用 权 。 在 另外 一 些 情况 下 ， 第 三 方 并 没有 分 享 信息 的 意愿 。 这 时 ， 企 业 应 该 
充分 考虑 并 拿 出 极 具 吸 引力 的 条 件 ， 说 服 第 三 方 将 信息 出 售 或 共享 ， 或 者 拿 出 
其 他 的 刺激 因素 确保 数据 的 获取 。 要 想 能 够 持续 、 安 全 、 及 时 地 获取 外 部 数据 ， 
还 需 解决 一 系列 的 技术 难题 ( 比如 数据 标准 化 以 及 数据 传输 )。 

例如 ,许多 企业 最 近 发 现 了 社交 媒体 的 数据 价值 。 电 信 公 司 发 现 社交 网 络 
中 的 信息 可 以 帮助 预测 顾客 走向 。 它 们 发 现 当 一 些 客户 开始 使 用 某 种 通讯 方式 
时 ， 其 他 客户 也 会 模仿 ， 所 以 这 些 容易 受 影响 的 用 户 则 被 定 为 保留 项 目的 目标 
群体 。 另 外 一 些 企业 发 现 它们 可 以 从 网 上 的 情绪 表达 总 结 出 客户 的 态度 、 购 买 
趋势 和 品位 ， 使 它们 能 够 及 时 改变 营销 策略 和 产品 设计 。 


94.3.2 ”明确 潜在 价值 的 机 遇 和 挑战 


为 了 抓 住 机 会 ， 进 行 有 目的 的 实验 是 充分 利用 大 数据 最 强 有 力 的 途径 。 选 
择 一 些 潜力 巨大 的 领域 用 大 数据 进行 实验 ， 比 如 数字 化 营销 ， 然 后 对 成 果 进行 
快速 分 类 ， 将 是 开始 转型 的 有 效 方法 。 
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在 麦肯锡 的 研究 中 ， 发 现 创造 大 量 的 新 价值 不 一 定 非 要 直接 进行 复杂 的 大 
数据 分 析 。 在 很 多 情况 下 ， 即 使 是 在 采用 更 先进 的 工具 之 前 ， 关 注 数据 的 使 用 
和 应 用 基本 的 分 析 方 法 就 能 创造 巨大 的 价值 。 在 医疗 保健 领域 ， 创 造 透明 度 和 
进行 基本 的 大 数据 运用 就 可 以 产生 40% 的 潜在 价值 。 大 多 数 机 构 正在 逐步 培 
养 这 种 能 力 。 

麦肯锡 的 研究 明确 了 大 数据 研究 和 应 用 的 四 个 阶段 。 

第 一 个 阶段 是 数据 的 数字 化 与 构建 ， 这 是 使 用 大 数据 之 前 的 阶段 ， 是 确保 
产生 、 构 建 和 组 织 数据 从 而 使 终端 用 户 和 后 续 分 析 都 可 直接 使 用 数据 的 几 个 步 
又 。 这 些 技术 包括 净化 数据 以 排除 错误 、 保 证 数据 质量 ， 将 数据 结构 化 ， 加 入 
描述 数据 的 元 数据 。 

第 二 个 阶段 要 求 数 据 可 以 通过 网 络 而 被 使 用 ， 这 将 成 为 提升 自身 价值 的 强 
大 动力 ， 同 时 也 是 数据 整合 的 重要 初始 阶段 。 

第 三 个 阶段 则 是 基本 分 析 的 应 用 ,涵盖 了 许多 方法 ,包括 基本 数据 对 比 和 
相对 标准 化 的 定量 分 析 等 。 

第 四 个 也 是 最 高 阶段 是 高 级 分 析 的 应 用 ， 比 如 说 自动 计算 和 实施 数据 分 
析 。 此 阶段 通常 可 以 创造 最 关键 的 新 的 商业 模式 。 它 们 也 允许 新 的 实验 手段 ， 
针对 客户 设计 最 优 方案 ， 并 且 与 第 三 方 一 起 创造 更 多 的 新 机 会 。 这 一 阶段 需要 
深层 次 的 专业 分 析 能 力 。 

除了 检测 机 构 的 潜力 ， 领 导 者 还 可 以 通过 通过 数据 类 型 检测 不 同 的 机 会 。 
通过 机 构 已 经 有 的 专利 数据 集 抓 取 的 价值 ， 尤 其 是 通过 额外 的 分 析 ， 可 以 带 来 
许多 机 会 ， 即 第 一 种 机 会 。 例 如 ， 医 疗 保健 服务 的 提供 者 可 能 发 现 通 过 分 析 临 
床 结果 可 以 更 好 地 确定 医疗 事故 的 原因 。 第 二 种 机 会 来 自 于 在 分 析 中 加 入 新 数 
据 。 这 些 数据 通常 涉及 非 标准 的 数据 类 型 。 比 如 说 ， 保 险 公 司 可 能 发 现 加 入 远 
程 感知 数据 可 以 更 好 地 评估 房地产 的 风险 。 第 三 种 机 会 来 自 基 于 大 数据 建立 起 
来 的 新 的 商业 模式 。 例 如 ， 支 付 方 发 现 通过 出 售 基于 支付 处 理 过 程 大 数据 流产 
生 的 客户 信息 可 以 创造 新 的 业务 。 

大 数据 可 能 会 带 来 潜在 的 威胁 。 在 大 数据 价值 链 的 语 境 中 ， 信 息 集合 和 分 
析 正 变 得 越 来 越 有 价值 ， 所 以 数据 生成 者 要 更 加 充分 地 理解 潜在 价值 ， 并 且 抵 
御 聚 焦 在 数据 集合 和 分 析 方面 的 新 对 手 。 在 一 些 领域 ， 第 三 方 数据 收集 者 自身 
并 不 产生 数据 。 他 们 在 数据 聚合 服务 的 基础 上 提供 其 他 的 附加 值 服务 。 比 如 说 ， 
在 金融 领域 ， 网 上 公司 Mint 聚合 个 人 的 金融 数据 并 且 提 供 附 加 值 服务 ( 比如 
金融 计划 工具 )， 即 使 它 自身 并 不 产生 金融 数据 。Mint 与 其 他 使 用 这 种 商业 模 
式 的 公司 对 通过 对 客户 整个 金融 情况 的 全 面 掌握 而 建立 客户 关系 的 传统 金融 机 
构 构 成 了 威胁 。 
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事实 上 ， 对 数据 等 级 和 IT 基础 设施 的 需求 可 能 会 成 为 巩固 已 有 成 绩 的 关 
键 动力 ， 在 小 规模 参与 者 遍布 的 领域 中 ,机遇 和 挑战 并 存 。 医 疗 保健 领域 则 是 
一 个 很 好 的 例子 ， 许 多 相对 小 规模 的 医疗 从 业者 依然 存在 。 当 他 们 进入 到 电子 
医疗 病历 的 数字 化 时 代 ， 并 且 开 始 从 数据 中 获取 利益 时 ， 他 们 会 发 现 通过 与 其 
他 从 业者 合并 以 扩大 规模 能 获取 更 大 的 利润 。 

云 计 算 推 动 的 数据 获取 也 有 可 能 打破 已 有 的 商业 模式 。 许 多 分 布 式 的 共同 
创造 涉及 与 外 部 伙伴 和 客户 的 合作 从 而 行使 更 多 的 公司 职能 ， 从 研发 、 市 场 营 
销 到 客户 服务 ， 这 些 传统 意义 上 都 是 由 内 部 员工 完成 。 


94.3.3 ”增强 内 在 能 力 


商业 机 构 需要 找到 合适 的 人 才 , 从 大 数据 的 应 用 中 获取 价值 。 在 人 力 方 面 ， 
麦肯锡 的 研究 表明 ， 越 来 越 短 缺 的 人 才 将 是 那些 能 够 分 析 大 数据 的 深层 分 析 人 
才 ; 知道 如 何 利 用 大 数据 分 析 结构 的 管理 者 和 分 析 师 ; 进行 大 数据 操作 的 支持 
性 技术 人 才 。 

有 些 大 数据 的 公司 已 经 对 深层 次 的 分 析 人 才 进 行 了 充分 的 分 类 ， 其 他 机 构 
可 以 从 这 些 最 佳 实践 中 获取 很 多 经 验 。 鉴 于 对 人 才 的 潜在 竞争 ， 机 构 必须 大 规 
模 地 招聘 这 类 人 才 。 这 包括 从 其 他 公司 挖 人 或 者 从 其 他 公司 购买 分 析 服 务 。 值 
得 注意 的 一 点 是 ， 早 期 招聘 的 人 员 非 常 关键 ， 因 为 他 们 构成 了 团队 。 让 这 些 人 
招聘 可 以 替代 他 们 的 人 很 难 ， 所 以 在 早期 就 招 进 最 有 能 力 的 员工 是 组 建 一 支 高 
效 团队 的 最 好 方式 。 

领导 者 还 需要 和 弄 清楚 如 何 组 织 这 些 深层 分 析 人 员 ， 从 而 使 他 们 形成 一 个 人 
才 中 心 ， 能 够 与 其 他 部 门 有 效 沟通 ， 与 领导 者 高 效 合作 。 同 时 ， 对 这 一 人 才 库 
的 激励 需要 金钱 ， 更 重要 的 是 内 在 激励 因素 。 

但 是 ,仅仅 拥有 人 才 库 并 不 足以 完成 机 构 的 转变 ， 尤 其 是 在 领导 者 和 分 
析 师 不 知 如 何 利 用 大 数据 的 情况 下 。 所 有 的 领导 者 必须 对 分 析 技 术 有 基本 的 理 
解 ， 从 而 有 效 利用 这 些 分 析 结 果 。 机 构 可 以 将 这 一 因素 考虑 在 内 ， 调 整 招聘 标 
准 。 更 重要 的 是 ， 他 们 需要 创造 新 的 培训 计划 从 而 提升 现 有 管理 和 分 析 水 准 。 
例如 ， 基 本 的 数据 项 目 或 者 在 当地 大 学 的 一 系列 数据 分 析 课 程 可 以 激励 出 一 支 
能 够 引领 机 构 转 型 的 管理 者 和 分 析 师 队伍 。 金 融 公司 Capital One 已 经 成 立 了 
内 部 培训 机 构 ， 还 提供 了 实验 设计 等 专业 项 目 。 机 构 必须 合理 分 工 ， 整 理 激励 
因素 、 结 构 和 工作 流 等 ， 从 而 使 各 个 层次 的 员工 都 可 以 充分 利用 大 数据 带 来 的 
信息 。 英 国 零售 商 Tesco 已 经 形成 了 一 套 从 高 级 管理 层 到 生产 第 一 线 的 数据 导 
向 思维 模式 。 它 通过 各 种 以 客户 为 导向 的 大 数据 策略 ， 将 客户 信息 整合 到 所 有 
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的 操作 环节 。 鞋 业 零售 商 Famous Footware 的 行政 团队 每 两 周 与 试验 负责 人 开 
一 次 会 ， 讨 论 结果 并 计划 新 的 数据 收集 和 评估 项 目 。Amazon.com 开除 了 一 个 
网 站 设计 组 ， 因 为 他 们 没有 经 过 对 客户 行为 的 实验 调研 就 对 擅自 改变 了 公司 的 
网 站 。 在 这 些 公 司 中 ,大 数据 成 为 管理 层 对 话 以 及 公司 文化 不 可 或 缺 的 一 部 分 。 


14.3.4 推进 实施 数据 策略 


为 了 迎接 大 数据 时 代 ， 商 业 机 构 应 该 为 整个 企业 制定 一 套 完整 的 数据 策 
略 ， 从 整体 上 考虑 数据 模型 、 构 造 以 及 解决 方法 的 属性 。 以 客户 数据 为 例 ， 最 
普遍 的 问题 是 分 散 的 单位 可 以 在 不 分 享 或 整合 机 构 数据 的 前 提 下 形成 自己 的 数 
据 策略 。 结 果 是 ， 机 构 通常 发 现 它们 甚至 对 于 自己 的 客户 都 没有 一 个 清晰 的 概 
念 。 即 使 在 同一 个 单位 之 内 ， 也 存在 这 样 的 差别 。 缺 乏 以 客户 为 中 心 的 意识 严 
重 制约 了 机 构 使 用 大 数据 创造 新 价值 的 能 力 。 一 个 有 效 的 企业 数据 战略 必须 包 
括 能 够 构成 彼此 协作 关系 的 数据 模型 、 数 据 交互 架构 、 整 合 架构 、 分 析 架 构 、 
安全 性 和 遵从 性 以 及 一 线 服 务 。 

许多 机 构 需 要 对 IT 硬件 、 软 件 和 服务 进行 投资 ， 从 而 可 以 抓 取 、 存 储 、 
组 织 和 分 析 大 规模 的 数据 集 。 投 资 水 平 因 公司 现 有 的 IT 能 力 而 异 。IT 领导 者 
需要 评估 技术 差距 ， 以 有 效 地 捕捉 、 存 储 、 积 累 、 交 流 和 分 析 数 据 。 他 们 需要 
与 公司 内 的 其 他 领导 者 一 起 合作 ， 研 究 商业 案例 ， 进 行 新 的 投资 。 

尽管 需要 一 个 全 面 的 企业 数据 战略 ， 目 标 项 目的 实施 和 能 力 的 发 展 也 是 非 
常 有 帮助 的 。 不 如 说 ， 加 利 福 尼 亚 州 的 Kaiser Permanente 最 开始 通过 建立 疾 
病 登 记 和 专家 组 管理 方案 ， 专 注 于 专门 为 长 期 病 患 服 务 的 IT 项 目 ， 而 不 是 能 
够 解决 一 系列 问题 的 全 面 IT 方案 。 


1435 ”解决 数据 安全 等 问题 


随 着 越 来 越 多 的 数据 因 各 种 目的 而 无 障碍 地 流通 ,解决 隐私 和 安全 问题 将 
成 为 重 中 之 重 。 尤 其 是 隐私 权 , 不 仅 是 法 律 法 规 , 也 是 机 构 与 客户 、 合作 伙伴 、 
员工 以 及 其 他 利益 相关 者 之 间 建 立信 任 关系 的 基础 。 公 司 务必 要 制定 符合 隐私 
法 律 法 规 的 数据 政策 。 但 是 ， 在 制定 隐私 政策 的 过 程 中 ， 机 构 需 要 充分 考虑 要 
与 利益 相关 者 建立 何 种 法 律 协议 ， 而 且 需 要 与 利益 相关 者 进行 清楚 的 沟通 ， 尤 
其 是 客户 ， 因 为 他 们 越 来 越 担 优 自己 的 信息 将 如 何 被 使 用 。 

作为 企业 数据 战略 的 一 部 分 ， 企 业 需要 实施 涵盖 全 部 IT 部 门 的 风险 战略 。 
这 一 战略 必须 包括 深入 的 企业 风险 评估 ， 从 实体 闯 入 的 可 能 性 到 黑客 侵入 的 可 
能 性 ， 但 是 也 许 更 加 重要 的 是 ， 有 权 使 用 这 些 数据 的 人 做 出 违反 公司 意愿 的 行 
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为 。 有 一 系列 的 IT 方案 专门 用 于 解决 数据 隐私 和 安全 风险 的 问题 。 

企业 领导 者 还 需要 全 力 对 付 涉及 数据 专利 权 和 责任 的 法 律 问题 。 这 些 问 题 
需要 专业 的 法 律 顾问 , 也 需要 将 多 种 因素 考虑 在 内 的 途径 , 包括 战略 、 与 客户 、 
合作 伙伴 和 雇员 的 关系 以 及 技术 等 。 

运用 大 数据 竞争 和 获取 价值 需要 领导 者 扫除 各 种 障碍 ,包括 人 才 、 技 术 、 
安全 隐私 、 机 构 文化 和 获取 数据 的 激励 因素 。 


O44 对 政策 制定 者 的 建议 外 | | | 


麦肯锡 报告 指出 : 没有 政府 与 政策 制定 者 对 于 当前 大 数据 发 展 面临 的 困难 
和 挑战 的 回应 ,将 无 法 发 挥 运用 大 数据 获得 的 价值 潜能 。 研 究 表明 ， 大 数据 
不 仅 是 单个 企业 强 有 力 的 竞争 手段 ， 而 且 可 以 提升 整个 行业 和 经 济 体内 的 生 
产 力 、 创 造 力 以 及 竞争 力 ， 不 论 是 在 发 达 国 家 还 是 在 发 展 中 国家 (James et al., 
2011 ). 

具有 前 瞻 性 的 政策 制定 者 将 与 大 数据 的 发 展 步调 一 致 ， 并 及 时 找 出 扫除 创 
造价 值 过 程 中 障碍 的 方法 。 如 果 政 策 制 定 者 想 要 帮助 企业 最 大 程度 地 利用 大 数 
据 ， 则 需要 国家 和 国际 层面 的 措施 。 运 用 大 数据 将 使 企业 在 竞争 中 脱颖而出 ， 
大 数据 也 将 在 国家 间 的 竞争 中 发 挥 重 要 作用 。 

政策 制定 者 必须 选择 那些 有 助 于 企业 通过 运用 大 数据 创造 价值 的 措施 。 政 
策 可 以 发 挥 作用 的 领域 包括 建立 人 力 资本 、 保 证 数据 使 用 的 刺激 因素 、 解 决 隐 
私 安全 问题 、 建 立 知识 产权 框架 、 克 服 获取 数据 的 技术 障碍 、 促 进 信息 技术 基 
础 设施 的 完善 。 一 些 政府 的 政策 制定 者 已 经 开始 在 这 些 领域 里 着 手 解决 这 些 
问题 。 


94.4.1 ”为 大 数据 时 代 建 立 人 力 资本 


政府 可 以 通过 很 多 方式 增加 大 数据 的 人 才 供应 。 首 先 ， 政 府 通过 教育 杠杆 
为 社会 输送 大 数据 所 需 专业 领域 的 毕业 生 。 例 如 ， 在 美国 ， 从 联邦 、 州 到 当地 
都 有 支持 科学 、 技 术 、 工 程 和 数学 教育 的 推动 政策 。 但 是 ， 对 于 深层 分 析 人 士 
的 需求 更 加 具体 ， 更 多 接受 过 统计 学 等 方面 教育 的 毕业 生 供不应求 。 政 府 增加 
人 才 供 应 的 第 二 种 方式 是 减少 人 才 流动 障碍 ， 比 如 通过 远程 工作 或 者 鼓励 人 才 
移民 。 

为 商业 、 政 府 和 社会 机 构 培养 具有 基本 分 析 技 术 的 人 才 ， 是 一 个 巨大 的 挑 
战 。 新 知识 青年 至 少 应 该 接受 这 些 领 域 的 课程 ; 统计 学 的 必修 课 也 应 该 成 为 商 
业 管理 等 其 他 管理 课程 的 一 部 分 。 但 是 仅仅 等 待 新 一 批 的 毕业 生 是 不 够 的 。 政 
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府 应 该 创造 更 多 条 件 对 已 有 的 管理 者 和 分 析 师 进行 培训 。 

麦肯锡 研究 发 现 ， 很 难 找到 美国 之 外 的 国家 劳动 力 的 具体 信息 。 一 些 国家 
应 该 提供 相关 职业 的 具体 数据 。 基 于 “不 了 解 则 无 法 管理 ”的 原则 ， 这 些 国家 
的 政策 制定 者 应 该 促使 劳工 统计 机 构 开 始 收集 更 多 、 更 详尽 的 具备 高 级 知识 的 
劳动 者 的 就 业 信息 。 这 些 数据 能 够 有 利于 更 好 地 打造 人 力 资本 。 


14.4.2 ”促进 数据 分 享 ， 创 造 激励 因素 


运用 大 数据 创造 价值 的 很 重要 的 方式 是 对 多 方 数据 进行 整合 。 但 是 很 多 情 
况 下 数据 市 场 并 未 发 展 起 来 ， 或 者 已 存 的 数据 交易 市 场 失灵 。 政 府 可 以 为 市 场 
的 有 效 运作 创造 条 件 ， 包 括 设立 有 关 知 识 产权 的 规则 、 调 停 争端 等 。 比 如 ， 美 
国医 疗 保健 领域 建立 医疗 信息 交换 的 要 求 就 是 为 了 保证 清洁 的 临床 数据 可 以 得 
到 共享 ， 从 而 使 整个 行业 可 以 充分 利用 有 关 治疗 对 比 效果 的 数据 。 

当 市 场 失灵 时 ， 比 如 利益 相关 者 缺乏 共享 信息 的 利 已 因素 时 ， 政 策 制定 
者 应 该 制定 规则 保证 信息 的 共享 。 比 方 说 ， 很 多 企业 因为 害怕 对 自己 的 名 誉 造 
成 损害 而 不 愿 公布 失误 数据 。 但 是 政府 却 有 明确 的 理由 促进 信息 共享 ， 因 为 这 
样 可 以 降低 行业 范围 内 的 风险 。 下 命令 收集 和 公布 此 类 信息 是 必要 的 。 例 如 ， 
政府 可 能 要 求 公共 企业 提供 标准 电子 模式 下 的 金融 数据 。 在 最 近 的 全 球 金 融 危 
机 之 后 ， 许 多 政府 已 经 意识 到 提升 金融 报道 的 透明 度 有 利于 降低 金融 系统 的 
风险 。 


94.4.3 ”平衡 企业 创造 价值 的 需求 与 大 众 保护 隐私 的 诉求 


虽然 大 数据 可 以 创造 巨大 价值 ， 但 是 很 多 人 对 于 高 度 私 人 化 信息 的 使 用 抱 
有 怀疑 态度 。 大 众 将 持续 表达 对 隐私 权 的 诉求 ， 企 业 需 要 清楚 地 知道 什么 信息 
可 用 ， 什 么 信息 不 可 用 。 在 有 些 情况 下 ,个 人 信息 市 场 可 以 发 展 起 来 ,但 是 在 
另外 一 些 情况 下 ， 传 统 市 场 机 制 不 足以 保护 隐私 。 

在 未 来 ,《 保 护 隐 私法 》 的 颁布 和 有 效 实施 至 关 重 要 。 这 不 仅 有 利于 保护 
客户 隐私 ， 同 时 可 以 证 明 信 息 分 享 的 价值 大 于 其 风险 。 政 策 制定 者 面临 的 挑战 
之 一 是 与 大 数据 的 发 展 保持 步调 一 致 。 当 然 ， 政府 、 非 营利 机 构 和 私人 企业 都 
需要 开展 相关 的 教育 ， 使 公众 明白 有 多 少 私人 信息 可 以 共享 ， 这 些 信息 用 于 何 
处 、 如 何 使 用 ， 以 及 个 人 是 否 乐意 共享 私人 信息 。 

大 多 数 发 达 国家 已 经 有 了 专门 负责 制订 和 推行 数据 隐私 法 律 法 规 的 机 构 。 
在 美国 ， 联 邦 贸易 委员 会 将 《公平 信息 实践 原则 》 作 为 处 理 安全 隐私 问题 的 指 
导 方 针 ,欧盟 有 《信息 保护 条 例 》 所 有 这 些 法 律 法 规 都 包含 了 相似 的 保护 条 例 。 
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德国 有 专门 对 行业 信息 保护 进行 监管 的 联邦 官员 。 韩 国 的 信息 保护 法 案 则 是 由 
两 个 不 同 的 政府 部 门 联合 实施 的 。 

与 此 同时 ， 企 业 和 政府 都 需要 强 有 力 的 法 律 防止 黑客 和 其 他 入侵 ， 最 大 程 
度 地 保护 数据 库 的 运转 。 保 护 IT 基础 设施 意义 重大 ， 在 网 络 袭 击 日 益 复 杂 和 
猩 狐 的 情况 下 ， 要 确保 可 以 安全 使 用 数据 。 例 如 ， 针 对 一 个 国家 金融 基础 设施 
的 网 络 攻击 会 造成 数 百 万 人 敏感 的 个 人 信息 的 泄露 ， 也 会 使 用 户 对 电子 市 场 失 
去 信任 。 


144.4 ”建立 有 效 的 知识 产权 框架 ， 保 护 创新 


毫 无 疑问 , 在 大 数据 时 代 , 我 们 会 继续 见证 更 多 创新 沿 着 数据 价值 链 兴 起 ， 
生产 、 抓 取 、 分 析 数 据 的 创新 技术 将 会 不 断 涌现 。 随 着 机 构 对 于 大 规模 数据 的 
实时 抓 取 、 存 储 和 分 析 日 益 强 烈 的 需求 , 相应 的 存储 和 分 析 技 术 也 会 不 断 提高 。 
这 些 创 新 则 需要 有 效 的 知识 产权 体系 ， 既 可 以 保证 有 价值 信息 的 不 断 产生 ， 也 
可 以 对 不 同 的 信息 进行 有 效 的 分 享 和 整合 。 人 们 对 于 保护 知识 产权 以 及 争端 裁 
定 的 需求 将 越 来 越 强 烈 。 


14.4.5 ”清除 技术 障碍 ， 加 速 关键 领域 的 研发 


政策 制定 者 可 以 帮助 解决 大 数据 使 用 的 相关 技术 问题 ， 包 括 加 快 IT 工具 
的 标准 化 制定 ， 鼓 励 关 键 领域 的 研发 。 

IT 工具 和 某 些 数据 类 型 的 标准 化 至 关 重 要 ， 这 关系 到 能 否 通 过 数据 共享 
创造 价值 。 这 些 标 准 源 自 行业 标准 的 制定 ,但 是 政府 也 发 挥 了 重要 的 推动 作用 。 
例如 ， 在 美国 的 医疗 卫生 领域 ， 由 国家 医疗 信息 技术 办 公 室 公布 的 “电子 医疗 
病历 标准 ”明确 了 电子 医疗 病历 技术 的 资质 标准 ， 从 而 使 医生 和 医院 可 以 放心 
应 用 该 系统 。 

政策 制定 者 也 可 以 加 快 大 数据 研究 。 政 府 可 以 直接 发 起 基础 性 的 研究 计 
划 。 比 如 ， 美 国 国家 科技 基金 会 赞助 了 计算 机 科学 和 数学 项 目 ; 欧盟 推出 了 研 
究 框 架 项 目 ， 专 门 用 于 为 欧洲 范围 内 的 科技 项 目 提供 研究 资金 。 

政府 还 可 以 考虑 如 何 通过 包括 税收 和 其 他 金融 支持 在 内 的 激励 因素 ， 帮 助 
克服 大 数据 使 用 过 程 中 的 技术 障碍 。 有 时 针对 大 数据 的 投资 和 回报 存在 不 对 称 
的 问题 。 仍 以 美国 的 医疗 领域 为 例 ， 医 疗 服务 提供 者 是 电子 病历 技术 的 主要 投 
资 者 ， 但 是 其 产生 的 利益 多 由 患者 和 支付 者 享有 。2009 年 推出 的 《美国 复苏 
和 再 投资 法 案 》 向 医疗 服务 者 提供 了 200 亿美 元 ， 用 于 电子 病历 和 医疗 信息 共 
享 的 投资 ， 从 而 收集 更 多 的 临床 数据 。 
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14.4.6 ”确保 对 信息 和 通讯 技术 基础 设施 的 投资 


大 规模 数据 集 的 运用 需要 到 位 的 基础 设施 ,包括 支撑 信息 技术 的 电路 和 数 
据 传输 需要 的 通讯 网 络 。 麦 肯 锡 通过 对 不 同 国家 的 研究 发 现 ， 鼓 励 基础 设施 的 
政策 干预 存在 很 大 差异 。 

许多 国家 已 经 推出 了 扩展 基础 设施 的 激励 计划 。 比 如 ， 美 国政 府 公布 了 
一 系列 的 财政 刺激 计划 ， 鼓 励 宽带 基础 设施 的 建立 和 电子 病历 的 发 展 。 美 国政 
府 还 提出 一 项 影响 深远 的 国家 无 线 发 展 规划 ， 计 划 使 98% 的 区 域 可 以 使 用 4G 
宽带 。 其 余 各 国政 府 也 纷纷 采取 措施 促进 基础 设施 的 发 展 。 比 如 ， 韩 国 为 某 些 
群体 的 宽带 使 用 提供 补贴 ， 而 日 本 和 欧洲 国家 则 明确 要 求 宽带 用 户 需 有 偿 使 用 
网 络 。 

政策 制定 者 可 以 确保 企业 等 机 构 充 分 发 挥 大 数据 在 人 才 、 研 发 和 基础 设施 
等 重要 领域 的 潜能 ， 也 可 以 促进 这 些 领域 的 创新 。 这 些 政策 应 该 包括 具体 的 、 
可 行 性 强 的 措施 。 更 加 复杂 的 挑战 则 是 确保 立法 机 构 在 允许 自由 运用 大 数据 和 
减轻 公众 对 隐私 安全 的 担忧 之 间 达 到 平衡 。 这 一 平衡 需要 透彻 的 思考 ， 是 政策 
制定 者 逃 不 掉 的 问题 。 

( 本章 编译 者 : 刘 沙 沙 ， 清 华 大 学 国际 传播 研究 中 心 助 理 研 究 员 ， 硕 士 研 
FEE ) 
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不 断 发 生 ， 在 大 数据 时 代 ， 需 要 制定 和 遵守 一 定 的 “游戏 规则 "， 保 护 公众 隐 
私 与 国家 的 非 传统 安全 。 
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互联 网 如 今 已 经 从 仅仅 满足 于 大 众 化 的 信息 发 布 ， 更 多 地 变 成 了 一 种 精确 
营销 。 网 络 经 济 利用 用 户 的 个 人 信息 创造 了 巨大 的 财富 。 

2009 年 《华尔街 日 报 》 引 用 的 一 项 广告 行业 研究 表明 ,无 目的 性 的 在 线 
广告 创造 的 价值 是 每 千 次 点 击 量 1.98 美元 ， 而 有 目的 性 的 在 线 广告 每 千 次 点 
击 量 创造 的 价值 是 4.12 美元 (Jeffrey, 2011 )。 过 去 我 们 衡量 网 站 成 功 与 否 的 标 
准 是 计算 浏览 量 ， 而 如 今 我 们 更 多 地 把 它们 看 成 是 社交 网 络 ， 即 这 些 网 站 对 
用 户 的 了 解 程度 。 这 也 解释 了 为 什么 沃尔玛 公司 会 斥资 3 亿美 元 ， 收 购 提 供 
社交 媒体 内 容 过 滤 及 分 类 平台 的 Kosmix 公司 。Kosmix 团队 的 主要 优势 在 于 
对 社交 网 络 内 容 和 信息 的 分 类 、 过 滤 以 及 优化 搜索 。 在 Kosmix 上 ， 如 果 用 户 
搜索 Shoes， 系 统 则 会 条 理 分 明 地 显示 来 自 社交 购物 网 站 Kaboodle 的 热门 列 
表 、Stylehive 的 达 人 们 的 收藏 标签 、Youtube 的 视频 、Google 的 图 片 以 及 来 自 
Twitter 的 讨论 ， 这 显然 区 别 于 传统 搜索 引擎 主 题 式 的 陈列 。 

Kosmix 令 沃 尔 玛 动心 的 一 个 大 背景 是 ， 如 今 ， 社 交 网 络 对 于 零售 业 的 重 
塑 正在 成 为 现实 ， 而 电子 商务 则 是 可 以 感受 到 这 种 变化 的 桥头 堡 。 最 明显 的 例 
子 便 是 由 社交 网 络 跳 转 到 电子 商务 网 站 的 访问 量 增长 迅速 ,对 于 电子 商务 而 言 ， 
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访问 量 便 意 味 着 利益 。 

其 他 的 零售 商 以 及 Facebook、 雅 虎 等 网 络 巨 壁 ， 正 在 使 用 另 一 种 开源 
云 计 算 技术 Cloudera 来 整理 过 去 数 年 间 存 储 的 数量 庞大 的 行为 信息 ， 借 以 
寻找 只 有 电脑 才能 分 析 计 算出 的 行为 模式 。 以 这 些 方式 产生 的 智能 可 以 帮助 
Zynga © 等 社交 游戏 公司 设计 出 更 好 的 游戏 ， 或 为 各 个 不 同行 业 的 品牌 提供 更 
好 的 广告 创意 。 如 果 在 线 广告 具备 适当 的 目的 性 ， 它 就 有 可 能 成 为 重要 的 
信息 。 

潜在 的 利益 帮助 解释 了 各 种 数据 交换 、 数 据 集 市 、 预 测 分 析 引 擎 和 其 他 中 
介 产 品 的 不 断 增 加 。 这 同时 也 解释 了 为 什么 谷歌 、 脸 谱 (Facebook ) 和 Zynga 
以 及 其 他 许多 公司 ,正在 想方设法 收集 更 多 的 用 户 信息 。 脸 谱 提供 了 一 个 例子 ， 
证 明了 这 种 追踪 用 户 信 息 做 法 的 广泛 性 。 脸 谱 上 的 “喜欢 ”按钮 看 上 去 无 伤 大 
雅 ， 点 击 “ 喜 欢 ”， 你 就 可 以 立刻 分 享 你 和 朋友 们 都 喜欢 的 信息 ; 然而 ， 如 果 
你 在 登录 脸谱 账号 的 情况 下 访问 了 带 有 “喜欢 ” 键 的 网 页 ， 脸 谱 就 可 以 追踪 你 
在 这 个 网 页 上 所 看 的 内 容 及 所 做 的 事情 。 这 难免 会 使 人 有 些 不 安 。 


951.2 大 数据 对 公众 隐私 与 信息 安全 的 威胁 


互联 网 给 人 们 带 来 海量 的 信息 ， 提 供 了 大 量 的 机 会 ， 也 进一步 成 为 推动 企 
业 发 展 的 重要 手段 。 但 是 ， 在 互联 网 飞速 发 展 进步 的 同时 ， 个 人 信息 安全 也 受 
到 了 严重 的 威胁 。 

2011 年 4 月 初 ， 全 球 最 大 的 电子 邮件 营销 公司 艾 司 隆 (Epsilon) 发 生 了 
史上 最 严重 的 黑客 入 侵 事 件 ， 导 致 许多 主要 的 企业 客户 名 单 以 及 电子 邮件 地 
址 因此 外 泄 ， 受 害 企业 包括 了 摩根 大 通 、 第 一 资本 集团 、 万 豪 饭 店 、 美 国 银 
行 、 花 旗 银 行 、 沃 尔格 林 药 妆 连 锁 店 及 电视 购物 网 络 等 。 而 就 在 不 到 一 个 月 时 
间 的 同年 4 月 底 ， 索尼 公司 唱 到 黑客 攻击 ,泄露 了 一 亿 份 账户 资料 ， 将 其 Play 
Station 网 络 ?” 和 Qriocity” 流 媒体 服务 关闭 了 将 近 一 个 月 。 索 尼 公 司 因此 花费 了 
约 1.71 亿美 元 来 弥补 这 个 损失 。 

然而 ,黑客 并 不 是 互联 网 时 代 人 们 隐私 和 信息 安全 的 唯一 威胁 者 。 同 样 在 


D Zynga 是 一 个 社交 游戏 公司 ， 于 2007 年 6 月 成 立 。Zynga 开发 的 游戏 多 半 是 网 页 游戏 ， 并 发 布 于 
Facebook 以 及 MySpace 一 类 的 社交 网 站 。 公 司 的 总 部 在 美国 旧金山 。 

@ PlayStation 是 日 本 索尼 公司 旗下 的 新 力 电脑 娱乐 SCEI 家 用 电视 游戏 机 , 现 已 成 为 最 出 名 的 家 游 产 
品 之 一 。 玩 家 只 要 把 PlayStation 主机 连接 上 网 ， 便 可 以 即时 下 载 免 费 游戏 、 参 加 网 上 对 战 ， 体 验 
PlayStation 网 络 的 强大 功能 。 

O 索尼 公司 推出 的 线 上 云端 影音 串 流 服务 ， 使 用 户 能 订阅 音乐 推送 到 一 切 索尼 设备 上 ， 包 括 各 种 播放 
器 和 索尼 的 Bravia 电视 等 可 上 网 连 线 的 装置 都 可 以 使 用 这 个 平台 。 
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那个 4 月 ,《 华 尔 街 日 报 》 报 道 (Julia et al., 2011) 说 ， 其 安全 分 析 师 发 现 苹 
果 iPhone 和 使 用 谷歌 安 卓 操作 系统 的 智能 手机 会 自动 收集 用 户 行踪 信息 ， 而 
且 苹 果 手 机 在 定位 功能 被 关闭 后 仍 会 继续 收集 和 保存 用 户 位 置信 息 。 虽 然 苹果 
公司 发 表 了 否认 声明 ,并 宣布 将 发 布 软件 升级 程序 来 修补 技术 漏洞 ,但 这 一 “ 跟 
踪 定 位 ”事件 在 美国 和 其 他 国家 受到 了 广泛 关注 ， 引 发 各 界 对 移动 设备 与 个 人 
隐私 保护 问题 的 新 一 轮 的 讨论 和 思考 。 

《华尔街 日 报 》2010 年 7 月 的 一 篇 文章 《个 人 隐私 : 互联 网 新 金 矿 》 中 报 
道 了 一 名 美国 女性 令 人 不 安 的 经 历 ( Julia, 2010 ): 


在 艾 希 莉 ， 海 耶 斯 * re (Ashley Hayes-Beaty) 的 电脑 里 ， 一 个 小 小 的 文 
件 正 在 帮助 收集 关于 她 的 各 种 个 人 信息 。 最 终 这 些 信息 将 以 1/110 美 分 的 价格 被 
出 售 。 这 一 文件 包含 着 一 个 简单 的 代码 一 一 4c812db292272995e5416a323e79bd37。 
懂行 的 人 会 知道 ， 这 个 代码 说 明 艾 希 莉 是 一 名 来 自 田 纳西 州 纳什 维尔 的 26 岁 
女性 ， 最 喜欢 的 电影 是 《公主 新 娘 和 《初恋 五 十 次 入 《对 面 恶 女 看 过 来 》 也 
知道 她 最 喜欢 的 电视 剧 是 《欲望 都 市 》， 更 知道 她 喜欢 浏览 娱乐 新 闻 ， 走 欢 各 
种 问答 。 

艾 希 莉 正 在 一 家 纽约 公司 Lotame 的 监控 之 下 。 这 家 公司 使 用 一 种 基于 网 
络 标签 和 信 标 的 复杂 软件 , 来 捕捉 人 们 在 网 站 上 输入 的 文字 , 如 对 电影 的 评论 ， 
也 可 以 追踪 他 们 感 兴趣 的 网 页 内 容 究 竟 是 哪些 。Lotame 最 终 会 将 很 多 这 样 的 
个 人 信息 打包 出 售 ， 卖 给 那些 正在 寻找 潜在 消费 者 的 企业 。 比 如 ， 艾 希 莉 的 
资料 可 以 纳入 电影 爱好 者 的 包 衰 ， 价 格 是 每 1000 人 1 美元 。 当 然 ， 也 可 以 
更 加 详细 地 定制 ， 将 这 些 资料 按照 各 种 不 同 的 方式 进行 逐 层 细 化 ， 比 如 艾 希 
痢 可 以 被 界定 为 “初恋 五 十 次 》 的 26 岁 南 方 影迷 ”。 


《华尔街 日 报 》 的 调查 发 现 ， 目 前 互联 网 上 成 长 最 快速 的 生意 之 一 就 是 监 
视 互 联网 用 户 。 全 美 最 大 的 50 家 网 站 在 访问 者 的 电脑 上 平均 安装 了 64 种 追踪 
技术 ,通常 都 没有 任何 警告 大 约 10 多 家 网 站 所 安装 的 技术 甚至 超过 了 上 百 种 。 
此 外 ， 追 踪 技 术 正在 变 得 越 来 越 精巧 ， 植 人 程度 也 越 来 越 深 。 过 去 ， 监 控 一 般 
都 被 局 限 在 记录 用 户 访问 网 站 情况 的 Cookies 之 中 , 而 《华尔街 日 报 》 却 发 现 ， 
新 的 工具 完全 可 以 在 人 们 浏览 网 页 和 操作 的 时 候 进 行 实 时 扫描 ， 然 后 立即 对 所 
在 地 、 收 入 、 购 物 兴 趣 ， 甚 至 医疗 条 件 等 因素 进行 评估 。 一 部 分 工具 甚至 可 以 
在 用 户 试图 删除 它们 的 时 候 悄 悄 地 进行 自我 复制 。 

在 这 个 大 数据 时 代 , 我 们 的 线 上 生活 几乎 都 是 可 以 被 追踪 的 ， 甚 至 线 下 生 
活 也 可 以 被 追踪 ( Jeffrey, 2011 )。 就 拿 一 家 座 落 在 美国 硅谷 的 新 兴 弹 性 社交 网 
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络 公 司 Color 来 说 吧 。 这 家 公司 旨 在 利用 手机 设备 里 的 GPS 定位 功能 ， 结 合 
内 置 的 陀螺 仪 和 加 速 计 来 解析 手机 用 户 所 拍 的 照片 流 并 据 此 定位 用 户 所 处 的 位 
置 。 通 过 观察 用 户 通过 Color 的 软件 所 分 享 的 照片 ， 分 析 图 片 涉及 的 内 容 ,加 
上 手机 麦克 风 所 搜集 的 环境 声音 ，Color 不 仅 可 以 显示 用 户 所 在 的 位 置 ， 而 且 
能 反映 用 户 正 和 谁 在 一 起 。 这 种 服务 不 仅 对 于 那些 对 手机 社交 网 络 感 兴 趣 的 用 
户 而 言 十 分 具有 吸引 力 ， 而 且 也 吸引 了 许多 狂热 的 技术 爱好 者 。 

Color 公司 的 做 法 说 明了 一 个 越 来 越 突出 的 事实 : 企业 正在 日 渐 掌 握 新 的 
方法 来 捕获 关于 消费 者 的 信息 。 如 今 ， 它 们 已 经 拥有 了 使 数量 巨大 的 非 结构 化 
松散 数据 变 得 有 意义 的 技术 ， 如 自然 语言 处 理 、 机 器 学 习 ， 以 及 诸如 分 布 式 计 
算 (Hadoop ) 这 样 的 软件 架构 ， 可 以 处 理 大 量 的 同步 网 络 搜索 请 求 信 息 的 分 
析 。 网 络 搜索 信息 这 种 杂乱 无 章 的 数据 ， 早 已 被 归 人 数据 仓库 ， 如 今 已 成 为 数 
据 挖掘 的 主要 对 象 。 社 交 网 络 所 生成 的 信息 也 是 如 此 ， 主 要 包括 个 人 资料 、 发 
帖 和 日 志 等 。 这 些 信 息 的 数量 令 人 咋舌 ， 国 际 数据 公司 (IDC ) 的 一 份 报告 估 
测 ，2009 年 存储 的 信息 总 量 达 0.8ZB, 相当 于 8000 亿 GB ;国际 数据 公司 预测 , 
到 2020 年 ， 全 球 存储 的 数据 信息 将 达到 35ZB， 这 其 中 的 大 部 分 都 是 客户 信息 
( Jeffrey, 2011 )。 随 着 数据 存储 量 的 增加 ， 从 中 通过 分 析 而 得 出 推论 和 预测 的 
做 法 将 越 来 越 普遍 、 越 来 越 熟 练 。 

然而 ， 这 些 数据 的 使 用 是 否 应 该 得 到 用 户 的 授权 ?这 些 信 息 是 否 会 遭 到 滥 
用 ?用 户 是 否 会 因为 信息 泄露 而 遭 到 骚扰 ?个 人 信息 是 否 会 遭 到 断章取义 的 理 
解 ?这 些 都 涉及 公众 的 隐私 与 信息 安全 ， 必 须 得 到 重视 。 


9513 ”保护 公众 隐私 与 信息 安全 的 对 策 


怪不得 如 今 有 人 呼吁 企业 要 设立 隐私 主管 、 安 全 主管 、 数 据 主管 等 职 
位 ， 美国 和 欧洲 的 立法 者 也 正在 考虑 采取 各 种 方式 保护 公众 的 隐私 (Jeffrey, 
2011 )。 在 2011 年 美国 共和 党 和 民主 党 的 一 份 联合 提案 中 ， 参 议院 约翰 ， 麦 
凯 恩 和 约翰 。 克 里 共同 提出 了 《消费 者 隐私 权利 法 案 》( Consumer Privacy Bill 
of Rights ) 的 议案 ， 其 目的 是 在 部 分 程度 上 限制 互联 网 公司 对 消费 者 数据 的 使 
用 。 参 议院 杰 ' 洛克 菲 勒 也 在 2011 年 提出 了 独立 议案 ， 即 《网 络 不 跟踪 法 案 》 
( Do-Not-Track Online ) 的 议案 。 

在 过 去 几 个 月 里 ， 美 国政 府 已 经 采取 了 一 系列 重大 措施 ， 使 广大 消费 者 能 
够 对 自己 的 个 人 在 线 信 息 拥 有 更 强 的 控制 权 。2012 年 2 月 下 旬 ， 奥 巴 马 政府 
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公布 了 《消费 者 隐私 权利 法 案 》?。 数 周 之 后 ,美国 联邦 贸易 委员 会 (FTC ) 发 
布 了 有 关 消 费 者 隐私 权利 保护 的 最 终 报告 ， 该 报告 敦促 各 家 私营 公司 采取 自我 
监管 的 做 法 。 值 得 称道 的 是 ,美国 的 私营 部 门 正在 日 益 努 力 增强 自我 监管 措施 ， 
其 中 包括 那些 来 自 诸如 网 络 广告 倡议 组 织 、 互 动 广告 局 、 数 字 广 告 联 盟 等 组 织 
发 起 的 措施 。 许 多 广告 技术 公司 已 经 建立 了 自己 的 “不 跟踪 ”机 制 ， 消 费 者 可 
以 通过 点 击 在 广告 旁 一 起 出 现 的 “广告 选择 ”( AdChoices ) 图 标 ， 选 择 不 参与 
(opt out ) 接受 针对 性 广告 的 服务 活动 。 

在 私营 部 门 领域 ， 美 国 行业 自律 组 织 数字 广告 联盟 ( Digital Advertising 
Alliance ) 走 在 了 官方 政策 出 台 的 前 面 。 数 字 广告 联盟 于 2009 年 由 几 大 媒体 协 
会 共同 组 成 ， 包 括 美国 广告 代理 协会 、 美 国 广告 联盟 、 美 国 广告 主 协会 、 美 国 
直销 协会 、 美 国 互动 广告 局 、 网 络 广告 促进 会 等 。2010 年 底 ， 数 字 广 告 联 盟 
推出 了 它 自己 设计 的 隐私 保护 框架 “在 线 行为 广告 自我 监管 项 目 ”， 以 保证 消 
费 者 信息 的 安全 。 这 个 项 目 倡议 广告 平台 、 广 告 客户 、 广 告 公 司 以 及 网 民 共同 
营造 一 个 可 信 的 、 规 范 的 、 有 统一 反馈 机 制 的 广告 环境 。 承 诺 参 与 该 项 目的 有 
谷歌 、 美 国 在 线 、 雅 虎 等 美国 主流 广告 发 布 平台 ， 微 软 、 戴 尔 、 通 用 汽车 公司 
等 大 型 广告 客户 也 对 这 个 项 目 给 予 了 大 力 支 持 。 这 种 做 法 是 媒体 合作 与 行业 自 
律 的 产物 ， 而 消费 者 就 是 最 大 的 受益 人 群 。 

欧盟 数据 保护 工作 组 也 正在 致力 于 解决 同样 的 问题 。 欧 盟 数据 保护 工作 组 
曾 在 2009 年 分 别致 信 谷 歌 、 微 软 和 雅虎 三 大 搜索 引擎 巨头 ， 认 为 搜索 引擎 服 
务 商 保存 用 户 搜 索 记 录 时 间 超 过 6 个 月 的 理由 并 不 成 立 ， 因 此 要 求 这 三 大 搜索 
引擎 商 必 须 缩短 用 户 搜索 信息 的 保留 时 间 。 

大 数据 潜在 的 黑暗 面 意味 着 我 们 需要 道德 准则 来 规范 大 数据 的 使 用 。 杰 弗 
里 ， 雷 波 特 在 《大 数据 需要 道德 准则 》 一 文中 为 企业 提出 了 四 条 建立 使 用 大 数 
据 道 德 准则 的 建议 (Jeffrey, 2011 )。 

1. 做 法 公开 

收集 数据 时 ,要 让 用 户 及 时 知道 。 这 样 的 公开 做 法 可 以 应 对 隐藏 文件 和 非 
授权 追踪 而 造成 的 问题 。 让 用 户 知道 公司 对 于 他 们 信息 的 掌握 程度 ， 有 助 于 建 
立 用 户 与 公司 之 间 的 信任 ， 谷 歌 公 司 已 经 开始 这 么 做 了 。 如 果 你 想 知 道 谷歌 了 
解 了 你 的 哪些 信息 ， 可 以 点 击 www.Google.com/ads/preferences 了 解 你 的 广告 
偏好 设置 ， 页 面 会 显示 你 的 兴趣 已 与 你 浏览 器 中 存储 的 某 个 广告 Cookie 相关 


D 该 法 案 为 如 何 保护 用 户 隐 私 设 定 了 7 项 原则 ， 其 中 包括 网 络 用 户 有 权 控 制 哪些 个 人 数据 可 以 被 收集 
和 使 用 ， 有 权 得 到 易于 理解 的 有 关 隐 私 和 安全 方面 的 信息 ， 个 人 信息 被 收集 、 使 用 、 披 露 的 方式 必 
须 与 用 户 提供 这 些 信息 的 背景 相 一 致 ， 企 业 必须 负责 任 地 使 用 用 户 信息 等 。 
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联 ， 如 果 不 希望 谷歌 存储 你 的 兴趣 ， 则 可 以 在 下 方 选择 “ 停 用 ”。 

2. 设置 简单 

为 了 防止 公众 被 蒙 在 鼓 里 从 而 造成 信息 的 滥用 ， 企 业 应 该 给 用 户 机 会 ， 让 
他 们 自己 去 和 弄 明白 到 底 想 要 什么 程度 的 隐私 。 因 此 ， 许 多 网 络 企业 都 设 有 隐私 
政策 。 脸 谱 的 隐私 政策 共有 5830 个 英文 单词 ,比美 国 《宪法 》 的 4543 个 词 (不 
包括 修正 案 ) 还 多 。 但 这 只 是 冰山 一 角 。 企 业 应 该 试 着 修改 隐私 政策 ， 使 其 简 
明 易 懂 、 一 目 了 然 。 

3. 从 设计 着 手 保护 隐私 

有 些 人 认为 做 法 公开 和 设置 简单 都 不 足以 保证 用 户 的 网 络 隐 私 。 加 拿 大 
安大略 省 的 信息 与 隐私 专员 安 ， 卡 沃 基 安 提出 了 “设计 隐私 ”的 概念 ,倡导 各 
机 构 组 织 将 隐私 保护 加 入 所 有 活动 和 产品 之 中 。 她 认为 ， 没 有 人 愿意 仔细 看 完 
隐私 政策 ， 从 一 开始 就 为 保护 隐私 投入 少量 资金 的 话 ， 能 防止 数据 泄露 和 品 
形象 受 损 ， 还 能 省 下 不 少 冤枉 钱 。 但 这 并 不 意味 着 网 络 和 移动 产品 不 会 收集 用 
户 信息 ， 只 是 说 这 些 企业 和 组 织 会 从 一 开始 就 将 保护 用 户 隐 私 作为 一 项 基本 准 
则 。 微 软 公司 2006 年 发 布 的 一 份 名 为 《研发 软件 产品 和 服务 的 隐私 准则 》 报 
告 就 明确 地 体现 了 这 一 点 。 微 软 的 最 新 浏览 器 TES 使 用 户 可 以 通过 开启 设置 来 
阻挡 第 三 方 广告 。 目 前 在 隐私 设计 方面 较为 成 功 的 典型 是 谷歌 的 新 社交 网 络 
Google+。 此 前 谷歌 推出 的 产品 Google Buzz 自动 根据 Gmail 用 户 的 联系 人 名 
单 创 建 社交 网 络 , 但 联系 人 信息 理应 是 私密 的 ， 这 种 做 法 违背 了 最 基本 的 隐私 
原则 。 后 来 ， 谷 歌 在 新 社交 产品 中 将 隐私 保护 作为 基石 ， 所 有 联系 人 都 置 于 非 
公开 的 “圈子 ”( 如 “朋友 ”、“ 同 事 ” 和 “家 人 ”) 中 。 每 当 用 户 进行 分 享 时 ， 
他 们 需要 选 定 分 享 给 哪个 圈子 。 

4. 交换 价值 

当 你 走 进 一 家 星巴克 咖啡 店 ， 如 果 服 务 员 记 得 你 的 名 字 和 你 喜欢 喝 的 咖啡 
口味 ， 你 很 有 可 能 会 觉得 受宠若惊 。 同 样 的 事情 也 会 发 生 在 网 上 : 一 家 服务 提 
供 商 对 你 的 了 解 越 多 ， 你 就 越 有 可 能 喜欢 它 的 服务 。 彻 底 的 公开 透明 可 以 使 数 
字 商 业 更 便捷 地 向 用 户 展示 它们 可 以 为 用 户 提 供 的 服务 ， 以 作为 对 用 户 分 享 个 
人 信息 的 交换 。 收 费 视 频 网 站 网 飞 公司 (Netflix) 实践 了 这 一 做 法 。 该 公司 举 
办 了 一 次 公共 竞赛 ， 向 第 三 方 研 发 商 提供 100 万 美元 的 奖金 鼓励 他 们 研发 最 有 
效 的 电影 推荐 引擎 。 网 飞 公 司 使 用 用 户 的 电影 浏览 记录 来 提供 针对 性 不 断 提高 、 
更 加 有 用 的 观 影 推荐 ， 这 一 点 是 众所周知 的 。 

这 些 原则 并 不 详尽 ， 只 是 列 出 了 企业 对 大 数据 价值 的 看 法 及 缓和 其 风险 的 
做 法 。 采 用 这 些 原则 也 可 以 帮助 企业 走 在 决策 制定 者 试图 管理 数字 经 济 做 法 的 
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前 面 。 其 实 ， 关 于 使 用 大 数据 的 最 重要 的 黄金 法 则 还 是 那 句 老话 : 已 所 不 欲 ， 
勿 施 于 人 。 这 种 想法 和 做 法 可 以 帮助 我 们 创造 期 望 的 ， 也 是 应 有 的 数字 世界 。 


附 : 谷歌 隐私 权 原 则 


谷歌 公司 的 创意 和 产品 经 常 超越 现 有 技术 ， 从 而 推动 技术 的 不 断 进步 。 
作为 一 家 负责 任 的 公司 ， 我 们 努力 确保 在 进行 任何 创新 的 同时 ， 都 能 为 用 户 
提供 相应 级 别 的 隐私 权 和 安全 性 。 全 公司 上 下 在 制定 决策 时 都 会 以 隐私 权 原 则 
为 指导 。 这 样 , 我 们 就 能 在 完成 “整合 全 球 信息 , 使 人 人 皆 可 访问 并 从 中 受益 ” 
这 一 长 期 使 命 的 过 程 中 ， 让 用 户 得 到 保护 并 掌握 更 多 信息 。 

利用 收集 的 信息 为 用 户 提供 有 价值 的 产品 和 服务 

谷歌 十 大 信条 的 第 一 条 便 是 “以 用 户 为 中 心 ， 其 他 一 切 水 到 渠 成 ”。 用 户 
与 我 们 分 享 信息 后 ， 我 们 可 以 反 过 来 利用 这 些 信 息 为 用 户 提 供 有 价值 的 服务 和 
产品 。 我 们 相信 ， 以 用 户 为 中 心 可 以 促使 我 们 开发 出 各 种 产品 以 及 有 助 于 强化 
隐私 权 的 功能 ， 而 正 是 这 些 为 我 们 带 来 了 创新 和 忠实 的 在 线 用 户 群 。 

我 们 会 研究 人 们 在 搜索 中 常 犯 的 输入 错误 和 拼写 错误 ， 以 帮助 您 更 快 、 更 
准确 地 获取 搜索 结果 。 因 此 ， 如 果 您 输入 “ 周 结论 "， 我 们 就 会 推测 您 可 能 要 
搜索 的 是 “周杰伦 ”。 

开发 符合 隐私 权 标 准 和 隐私 权 惯 例 的 产品 

我 们 的 目标 是 引领 技术 潮流 ， 这 包括 开发 各 种 工具 ， 帮 助 用 户 简单 方便 地 
管理 自己 的 个 人 信息 ， 同 时 不 会 对 我 们 所 重视 的 用 户 体 验 造 成 任何 不 利 影响 。 
我 们 遵守 各 种 隐私 权 法 律 ; 此 外 ， 我 们 还 通过 内 部 的 工作 以 及 与 监管 机 构 和 行 
业 合作 伙伴 之 间 的 合作 ， 制 定 并 实施 严格 的 隐私 权 标 准 。 

我 们 设计 了 带 有 轿子 功能 的 Google+， 以 便 让 您 轻松 地 与 不 同 的 对 象 分 享 
各 种 内 容 。 您 可 以 使 用 这 个 产品 将 朋友 们 放 到 一 个 圈子 中 ， 将 家 人 放 到 另 一 个 
圈子 中 ， 而 将 老板 单独 放 到 一 个 圈子 中 ， 就 跟 现 实生 活 中 一 样 。 

将 个 人 信息 的 收集 透明 化 

我 们 会 尽 一 切 努 力 向 用 户 显 示 我 们 用 于 自 定 义 服 务 的 信息 。 我 们 希望 尽 可 
能 地 让 用 户 知 晓 我 们 所 收集 的 个 人 用 户 信息 ， 并 说 明 我 们 如 何 使 用 这 些 信 息 提 
供 服 务 。 

您 可 以 访问 谷歌 信息 中 心 了 解 谷 歌 知 道 您 的 哪些 信息 ， 那 里 会 显示 您 的 谷 
歌 账户 中 存储 的 信息 (例如 您 博客 中 的 最 新 博文 或 者 是 您 上 传 的 照片 )， 还 可 
让 您 从 一 处 集中 更 改 多 个 谷歌 产品 的 隐私 设置 。 

为 用 户 提供 有 意义 的 选择 ， 保 护 他 们 的 隐私 权 

每 个 人 对 于 隐私 权 的 关注 点 和 需求 各 有 不 同 。 为 了 能 让 所 有 用 户 均 享 受到 
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最 好 的 服务 ， 谷 歌 力求 为 用 户 提供 多 种 有 意义 且 体贴 细致 的 选择 ， 帮 助 他 们 决 
定 如 何 让 谷歌 使 用 其 个 人 信息 。 我 们 认为 ， 个 人 信息 是 不 应 受到 制约 的 ， 所 以 
我 们 致力 于 开发 可 让 用 户 将 自己 的 个 人 信息 导出 到 其 他 服务 中 的 产品 。 我 们 不 
会 出 售 用 户 的 个 人 信息 。 

借助 我 们 的 隐私 权 工 具 ， 您 可 以 对 自己 的 计算 机 与 谷歌 之 间 的 搜索 流量 进 
行 加 密 、 隐 身 浏览 互联 网 、 删 除 搜索 记录 、 使 用 我 们 的 数据 备份 功能 轻松 将 数 
据 移出 谷歌 产品 ， 您 还 可 以 实现 更 多 其 他 功能 。 

安全 保护 我 们 掌握 的 信息 

我 们 将 责无旁贷 地 保护 用 户 提供 给 我 们 的 数据 。 我 们 非常 重视 安全 性 问 
题 ， 并 与 广大 用 户 、 开 发 人 员 和 外 部 安全 专家 通力 合作 ， 共 同 营造 更 加 安全 可 
靠 的 互联 网 环境 。 

我 们 从 一 开始 就 在 产品 中 注入 了 安全 性 和 可 恢复 性 的 设计 理念 。 我 们 的 自 
动 扫描 器 每 天 都 在 使 用 各 种 数据 保护 数 以 百 万 计 的 用 户 免 受 恶意 软件 、 网 上 诱 
骗 、 欺 诈 和 垃圾 邮件 的 侵害 。 


16.2 信息 选择 与 决策 制定 和 | | | 


95.2.1 大 数据 不 等 于 全 数据 


现今 对 于 大 数据 的 研究 ， 很 多 都 是 从 计算 的 角度 出 发 的 ， 但 同时 我 们 必须 
了 解 到 ， 这 些 数 据 都 是 关于 人 的 ， 因 此 要 考虑 到 纯 计 算 带 来 的 局 限 性 (Danah, 
2010 )。 此 外 ， 大 数据 数量 庞大 ， 但 数量 不 等 于 质量 ， 质 量 比 数量 更 重要 。 大 
数据 存在 一 定 的 局 限 性 ， 其 中 之 一 就 是 样本 选择 问题 。 样 本 选择 对 所 有 的 社会 
科学 学 科 都 至 关 重要 ， 选 中 的 样本 和 数据 影响 着 研究 结论 的 得 出 。 

从 理想 的 方法 论 上 来 讲 ， 研 究 者 希望 能 取得 所 有 人 口 的 相关 数据 ， 以 更 好 
地 抉择 应 该 如 何 取样 。 如 果 有 这 样 的 一 个 完整 数据 库 ， 计 算 频 数 的 学 者 就 可 以 
轻易 地 取得 有 代表 性 的 随机 样本 。 同 样 ， 想 要 了 解 多 样 性 的 学 者 能 够 取得 异常 
值 。 从 历史 上 来 看 ， 能 够 取得 有 关 任 意 一 方面 的 全 部 数据 以 使 研究 者 得 出 结论 
的 最 好 近似 值 ， 这 是 非常 军 有 的 。 

大 数据 的 出 现 让 我 们 看 到 了 完整 数据 库存 在 的 可 能 性 。 但 是 ， 大 数据 并 不 
总 是 完整 的 。 推 特 拥 有 整个 推 符 上 信息 的 数据 库 , 但 大 多 数 研究 者 无 法 获得 推 
寺 上 的 所 有 数据 ， 至 多 只 能 看 到 所 有 公开 的 推 特 信息 。 通 常 这 些 信息 是 公开 话 
题 下 能 被 搜索 到 的 ， 而 这 些 有 时 也 不 是 随机 显示 的 。 

数量 大 与 数量 全 并 不 是 一 回 事 。 如 果 要 研究 推 特 上 关于 某 个 话题 的 频数 ， 
而 包含 问题 词汇 的 推 特 信 息 无 法 被 搜索 到 ， 那 么 基于 这 一 数据 样本 而 做 出 的 分 
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析 就 是 有 问题 的 。 

取样 需要 研究 者 在 做 研究 的 每 一 阶段 都 要 据 弃 自己 的 偏见 。 某 些 类 型 的 人 
有 没有 受到 同等 的 重视 ? 如 果 没 有 的 话 ， 意 味 着 什么 ? 假设 研究 者 能 够 取得 推 
特 上 所 有 公开 推 特 的 信息 ， 如 果 对 这 些 信息 进行 随机 取样 ， 那 么 就 意味 着 研究 
者 并 没有 对 用 户 账号 进行 随机 取样 。 这 是 因为 ， 并 不 是 所 有 用 户 账号 发 布 推 特 
信息 的 频数 都 是 一 样 的 , 有 些 人 发 得 勤 、 发 得 多 , 有 些 人 则 发 得 少 。 这 样 一 来 ， 
随机 取样 中 那些 发 布 信息 勤快 的 账号 就 会 提供 更 多 的 推 特 信息 。 再 假设 研究 者 
可 以 从 所 有 推 特 账号 中 随机 取样 。 但 这 样 一 来 ， 研 究 者 只 是 在 对 推 特 账号 进行 
随机 抽样 ， 并 没有 对 推 特 用 户 进行 抽样 ， 因 为 有 些 用 户 拥有 多 个 推 特 账号 ， 有 
些 用 户 有 账号 但 不 发 推 特 信息 ， 只 是 围观 ， 而 有 些 人 没有 账号 却 经 常 阅读 推 特 
上 的 信息 。 

这 就 好 比 当 个 人 拥有 多 张 手机 卡 时 ,汇合 每 张 手机 卡 上 的 数据 并 把 它们 归 
到 同一 个 人 身上 几乎 是 不 可 能 的 。 数 据 与 人 口 统计 指标 联系 起 来 时 ， 才 能 发 挥 
最 大 用 途 ， 因 为 此 时 的 数据 可 以 反映 某 一 部 分 人 群 的 习惯 。 因 此 我 们 需要 改善 
将 订阅 服务 与 人 口 信息 相 联 系 的 方式 ， 从 而 确保 移动 设备 产生 的 数据 能 最 大 程 
度 地 体现 个 人 化 。 

因此 研究 者 必须 对 数据 集 有 全 面 的 了 解 。 数 以 百 万 计 的 数据 并 不 意味 着 它 
们 就 是 随机 的 、 有 代表 性 的 。 要 用 数据 来 进行 解释 分 析 ， 就 必须 清楚 地 知道 数 
据 的 出 处 。 


95.2.2 大 数据 不 等 于 真 数 据 


因为 大 数据 的 “大 ”"， 很 多 与 大 数据 打交道 的 人 就 认为 它 是 最 好 的 数据 。 
大 数据 的 价值 显而易见 ， 但 也 存在 着 局 限 性 : 它 只 能 揭示 和 解释 某 些 事情 。 
如 果 研 究 者 认为 大 数据 能 说 明 的 事情 比 它 实 际 能 做 到 的 多 ， 那 就 是 一 件 危 险 
的 事情 。 

就 拿 社会 网 络 的 研究 来 说 吧 。 不 同学 科 的 学 者 都 在 用 各 种 方法 和 分 析 手 段 
来 研究 社会 网 络 。 但 我 们 并 不 能 说 从 脸谱 上 或 手机 记录 中 获得 的 数据 就 比 社会 
学 家 以 其 他 手段 获得 的 信息 更 加 准确 。 它 们 都 是 极其 有 用 的 网 络 ， 但 存在 着 不 
同 之 处 。 

从 历史 上 来 讲 ， 只 有 社会 学 家 对 研究 社会 网 络 感 兴趣 ， 通 过 调查 、 访 问 、 
观察 和 实验 等 方式 收集 有 关 社 会 网 络 的 数据 。 通 过 这 些 数据 ， 社 会 学 家 将 有 关 
个 人 社会 网 络 的 信息 进行 理论 化 提炼 。 争 议 的 焦点 在 于 应 该 如 何 测量 分 析 个 人 
网 络 ， 某 些 研究 方法 是 否 会 导致 偏见 以 及 该 如 何 解 释 这 些 偏 见 。 

大 数据 引入 了 两 种 新 近 流 行 的 由 数据 追踪 而 产生 的 社会 网 络 类 型 ， 即 表 
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达 型 社会 网 络 与 行为 型 社会 网 络 。 表 达 型 社会 网 络 指 的 是 社会 网 络 上 公开 显 
示 的 结果 ， 如 脸谱 上 用 户 公开 的 好 友 名 单 ; 行为 型 社会 网 络 指 的 是 沟通 交流 模 
式 。 这 两 种 社会 网 络 与 社会 学 家 所 讲 的 传统 意义 上 测量 和 理论 化 的 网 络 都 不 
一 样 。 

脸谱 上 许多 人 所 列 的 好 友 是 不 相识 或 者 不 喜欢 的 人 。 因 此 ， 分 析 脸 谱 上 的 
好 友 名 单 不 能 等 同 于 分 析 了 一 个 人 的 社会 网 络 。 某 个 社交 网 站 的 用 户 在 网 站 上 
所 列 的 特别 好 友 可 能 不 是 现实 生活 最 亲近 的 朋友 ， 做 出 这 样 的 选择 可 能 是 出 于 
一 些 其 他 因素 的 考虑 。 因 此 ， 通 过 网 络 联系 的 频数 和 公开 显示 的 信息 来 判别 人 
RRA RB, EREE o 

最 爱 大 数据 的 是 市 场 营销 人 员 ， 而 最 容易 误 读 大 数据 的 也 是 他 们 。 这 是 因 
为 市 场 营销 人 员 一 般 认为 “是 什么 ”能 够 回答 “为 什么 ”的 问题 。 大 数据 显示 
的 只 是 已 经 呈现 的 表面 现象 和 结果 ， 如 果 不 通过 询问 和 访谈 ， 可 能 就 无 法 得 知 
数据 背后 人 们 真正 的 想法 和 意图 。 

分 析 人 们 的 行为 模式 和 互动 模式 是 一 项 极其 重要 的 研究 工作 ,但 这 只 是 理 
解 社会 动态 的 第 一 步 。 一 味 地 分 析 数 据 只 能 帮助 研究 者 看 到 现象 和 结果 ， 如 果 
不 与 人 们 交谈 ， 就 无 法 了 解 人 们 行为 的 背后 原因 。" 是 什么 ”和 “为 什么 ”是 
两 个 不 同 的 问题 。 如 果 在 知道 了 “是 什么 ”的 基础 上 ， 通 过 自己 的 猜想 来 说 明 
“为 什么 ”"， 这 在 方法 上 就 是 错误 的 。 因 此 ， 通 过 大 数据 来 进行 解释 和 分 析 ， 并 
不 是 一 件 容易 的 事 。 

不 仅仅 是 研究 者 , 大 多 数 人 都 没有 完全 理解 在 回答 “为 什么 ”这 个 问题 时 ， 
“是 什么 ”其 实 可 以 有 不 同 的 诠释 。Cobot 软件 公司 曾 通过 一 款 LambdaMOO 
的 社区 网 络 产 品 收集 其 网 民 使 用 者 的 数据 。 由 于 该 公司 没有 利用 这 些 数据 ， 网 
民 觉 得 不 安 ， 就 要 求 公司 使 这 些 数据 物 尽 其 用 。 因 此 ，Cobot 公司 重新 编写 了 
一 个 程序 ， 用 户 可 以 询问 有 关公 司 所 收集 数据 的 问题 。 不 久 后 ， 用 户 就 开始 询 
问 他 们 使 用 这 款 产 品 时 和 谁 的 对 话 最 多 ， 接 着 开始 问 他 们 的 朋友 最 经 常 对 话 的 
对 象 是 谁 。 可 想 而 知 ， 当 甲 得 知 ， 他 最 经 常 对 话 的 乙 却 与 两 联络 最 频繁 时 ， 他 
怒火 中 烧 ， 再 也 不 和 乙 说 话 了 。 这 一 网 络 社区 中 的 许多 人 将 这 些 产品 使 用 的 行 
为 信息 当 作 关系 亲 玲 的 指示 器 。 这 个 网 络 社 区 最 后 分 骨 瓦 解 。 

鉴于 大 数据 所 存在 的 局 限 性 ， 对 大 数据 的 误 读 频频 发 生 。 通 过 大 量 数据 
和 精细 的 测量 ,统计 学 家 和 计算 机 科学 家 注意 到 ,“ 错 误 发 现 ” 的 威胁 正在 上 
升 。 斯 坦 福 大 学 的 统计 学 教授 特 雷 夫 。 哈 斯 蒂 (Trevor Hastie) 说 ， 在 数据 的 
干草 堆 中 捞 到 有 意义 的 “ 针 ”， 其 困难 就 是 “许多 干草 看 起 来 也 像 针 ”( Lohr, 
2012 ). 

大 数据 也 为 统计 诡计 和 有 偏见 的 事实 发 现 型 研究 提供 了 许多 原材料 。 它 
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为 一 个 旧 把 戏 套 上 了 高 科技 的 面具 ， 即 我 知道 事实 ， 如 今 就 只 需要 发 现 它们 。 
数据 通过 计算 机 和 数学 模型 来 进行 梳理 ， 从 而 被 理解 。 这 些 模 型 就 像 文学 中 的 
比喻 一 样 ， 简 单 化 地 解释 信息 。 它 们 有 助 于 人 们 理解 信息 ， 但 也 有 其 局 限 。 模 
型 可 能 根据 网 络 搜索 检索 出 数据 的 相互 关系 ， 得 出 不 公正 或 歧视 性 的 统计 性 
推断 。 

因此 , 企业、 组织 和 政府 在 利用 大 数据 时 要 充分 考虑 其 局 限 性 ， 在 收集 信 
息 和 进行 分 析 时 注重 研究 方法 的 运用 ， 使 大 数据 能 够 尽 可 能 地 反映 事实 。 


53) 大 数据 与 非 传统 安全 | 全 | | | 


95.3.1 网络 恐怖 主义 与 信息 战 的 威胁 


在 机 械 化 战争 时 代 ， 国 家 众多 目标 中 直接 面临 挑战 的 是 军队 。 但 在 信息 时 
代 ， 国 家 安全 环境 发 生 了 质 的 变化 。 无 论 在 战 时 还 是 在 平时 ， 一 国 的 各 种 信息 
设施 和 重要 机 构 等 都 可 能 成 为 打击 目标 ， 而 且 保护 它们 免 受 攻击 已 超出 了 军事 
职权 和 能 力 的 范围 。 决 策 的 不 可 靠 性 、 信 息 自身 的 不 安全 性 、 网 络 的 脆弱 性 、 
攻击 者 数量 的 激增 、 军 事 战略 作用 的 下 降 和 地 理 作用 的 消失 等 都 使 国家 安全 受 
到 了 严峻 的 挑战 。 此 外 ,网 络 化 的 国家 在 石油 和 天 然 气管 道 、 水、 电力 、 交 通 、 
银行 、 金 融 、 商 业 和 军事 等 方面 都 依赖 信息 网 络 控制 系统 ， 因 而 容易 遭受 信息 
武器 的 攻击 。 在 信息 时 代 ， 信 息 攻击 可 从 任何 地 方 发 起 ， 可 在 瞬间 穿 过 任何 自 
然 障 碍 ， 从 而 使 地 理 作 用 降 到 有 史 以 来 的 最 低 点 ， 也 使 任何 国家 无 法 再 享受 到 
天 然 的 “安全 保障 剩余 ””( 陈 效 卫 ，2001 ) 。 

22 年 前 ,“ 信 息 战 之 父 ” 沈 伟 光 ?就 出 版 了 世界 上 首部 《信息 战 ) 学 术 专 著 ， 
提出 了 信息 战 的 概念 。 而 在 如 今 大 数据 时 代 到 来 之 际 ， 丰 富 又 多 样 的 数据 来 
源 无 疑 又 为 信息 战 提供 了 “火力 ”支持 。 大 数据 将 对 各 国 具 有 重要 的 战略 安 
全 意义 。 

此 外 ， 大 数据 也 将 为 网 络 铠 怖 主义 提供 新 的 资源 支持 。 庞 大 海量 的 大 数据 
涉及 的 方面 之 广 ， 将 有 可 能 使 网 络 恺 怖 主义 的 势力 侵入 人 们 生活 的 方方面面 。 


O “安全 保障 剩余 ": 国际 政治 周期 性 规律 的 创立 者 、 美 国 著名 学 者 莫 德 尔 斯 基 的 观点 ， 认 为 一 个 国家 
要 成 为 国际 体系 中 的 真正 强国 ， 一 个 不 可 或 缺 的 条 件 是 享 有 “安全 保障 剩余 ”( Security Surplus ), 
即 居 有 岛国 或 半岛 国 的 地 缘 位 置 ， 使 自身 享有 一 种 进 可 攻 、 退 可 守 的 战略 自主 性 。 

2 沈 伟 光 ，1959 年 7 月 23 日 出 生 ， 浙 江 杭州 人 。 未 来 学 家 ， 信 息 战 专家 。 美 国人 称 他 为 “信息 战 之 
o 现在 在 浙江 省 档案 局 工作 。1985 年 开始 研究 并 提出 信息 战 概念 ,1987 年 4 月 17 晶 ( 解 放 军 报 》 
以 《信息 战 的 崛起 》 为 题 报道 了 他 的 研究 情况 ; 1990 年 3 月 在 浙江 大 学 出 版 社 出 版 了 世界 上 第 一 部 
《信息 战 》 专 著 ， 又 提出 信息 边疆 、 信 息 化 战争 、 信 息 化 军队 等 新 战争 概念 。 
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一 般 而 言 ， 网 络 恐 怖 主义 指 慌 怖 主义 与 网 络 空间 的 结合 ， 是 一 种 由 国家 或 
非 国家 主 使 的 ， 针 对 信息 、 计 算 机 程序 和 数据 以 及 网 络 系统 带 有 明确 政治 目的 
的 攻击 行动 。 具 体 来 说 ， 网 络 恺 怖 活动 的 行为 主体 是 电脑 网 络 黑客 ， 攻 击 目标 
是 一 国 或 数 国 的 计算 机 与 信息 网 络 系统 ， 其 手段 和 方式 是 使 用 针对 计算 机 操作 
系统 的 漏洞 和 网 络 软件 的 缺陷 开发 出 来 的 黑客 程序 软件 。 它 通过 威胁 、 攻 击 以 
及 破坏 和 次 痪 某国 的 民用 或 军事 基础 设施 ， 制 造 心 理 慌 慌 ， 造 成 财富 损失 ， 从 
而 达到 某 种 政治 与 社会 目的 ( 俞 晓 秋 ，2002 )。 

“9，11” 事 件 后 ,一 些 伊 斯 兰 黑客 组 织 像 穆斯林 游击 战士 为 报复 美国 黑客 
的 攻击 ,攻击 了 美国 海洋 及 大 气 局 网 站 ， 并 在 其 网 页 上 留 下 恐吓 字句 ， 威 胁 称 
如 果 美 国 不 停止 打击 阿富汗 以 及 基地 组 织 ， 他 们 会 把 手 上 的 美 政府 机 密 资 料 交 
给 基地 组 织 。 他 们 还 攻击 美国 国家 卫生 研究 所 全 国人 类 基因 组 织 机 构 的 服务 器 ， 
涂改 了 网 页 , 贴 上 了 沙特 阿拉 伯 国 旗 并 留 下 两 条 乌 都 尔 文 标语 “真主 伟大 至 极 ” 
和 “美国 人 准备 受 死 吧 ”。 因 此 ,社会 价值 感 的 扭曲 以 及 无 政府 主义 思想 的 膨胀 ， 
将 导致 黑客 实施 国家 规模 或 国际 规模 的 慌 怖 袭击 ， 从 而 蚁 变 成 网 络 恐 怖 主义 者 
(刘强 ，2004 )。 

网 络 恐 怖 主义 比 传统 意义 上 的 恐怖 主义 活动 更 加 防不胜防 。 如 何 保证 数据 
的 安全 ， 将 是 大 数据 时 代 的 一 项 严峻 挑战 。 


953.2 案例: 美国 的 对 策 


为 了 更 好 地 利用 信息 技术 来 反对 慌 怖 主义 的 袭击 ， 美 国联 邦 政府 正在 研究 
并 实施 一 些 新 方法 ， 利 用 海量 的 、 以 商业 手段 收集 的 个 人 信息 数据 库 来 为 提高 
国家 安全 服务 。 这 些 信息 库 几 乎 包含 了 各 个 行业 ， 包 括 保险 信息 、 旅 游 信息 、 
金融 数据 、 零 售 记录 ， 以 及 法 庭 文件 、 证 书 和 房产 证 明 等 政府 部 门 资料 。 这 一 
趋势 早 在 2001 4F “9° 11” 事件 发 生前 就 已 经 产生 ， 但 从 那 之 后 不 断 增 强 ， 新 
的 数据 环境 已 经 产生 了 两 大 前 所 未 有 的 特征 ， 即 来 源 于 私人 部 门 的、 可 用 的 个 
人 化 识别 信息 具有 深度 和 广度 ， 同 时 用 于 分 析 这 些 数据 的 分 布 形势 与 意义 的 能 
力也 在 不 断 提高 (James etal., 2004 )。 

2012 年 3 月 29 日 ,美国 联邦 政府 宣布 了 《大 数据 研究 和 发 展 倡议 》( Big 
Data Research and Development Initiative ), 斥资 2 亿美 元 投入 大 数据 研究 领域 ， 
以 加 强 政 府 各 个 部 门 、 研 究 机 构 和 其 他 组 织 从 大 量 复杂 的 数据 中 提取 、 分 析 重 
要 信息 的 能 力 。 这 一 倡议 涉及 美国 联邦 政府 的 六 个 部 门 ， 分 别 是 美国 国家 科学 
基金 、 美 国 国家 卫生 研究 院 、 美 国 能 源 部 、 美 国 国防 部 、 美 国 国防 部 高 级 研究 
计划 局 和 美国 地 质 勘探 局 。 这 些 部 门将 大 力 推动 和 改善 与 大 数据 相关 的 收集 、 
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组 织 和 分 析 工 具 及 技术 的 研发 和 使 用 ， 力 图 在 科学 发 现 、 环 境 保护 和 生物 医药 
研究 、 教 育 、 国 家 安全 及 战争 策略 等 领域 利用 大 数据 能 力 取得 突破 。 

奥巴马 政府 宣布 用 2 亿美 元 投资 大 数据 领域 ,体现 了 大 数据 对 于 国家 发 展 
和 国家 安全 的 重要 性 。 大 数据 作为 一 种 新 型 的 经 济 资产 ， 同 时 具备 安全 和 战略 
意义 。 大 数据 技术 领域 的 竞争 ， 事 关 国家 安全 和 未 来 。 

目前 ， 美 国 在 研究 与 利用 大 数据 方面 走 在 世界 前 列 ， 英 国 紧 随 其 后 ， 而 大 
数据 在 世界 的 其 他 国家 还 是 一 个 新 兴 概 念 ， 因 此 相对 而 言 研究 和 利用 得 还 比较 
少 (Mac，2012 )。 然 而 ， 随 着 大 数据 重要 性 的 逐渐 体现 ， 不 仅 商业 领域 将 更 
多 地 利用 大 数据 ， 各 国政 府 也 会 更 加 重视 大 数据 ， 进 而 将 这 种 新 型 资产 用 于 提 
高 国家 安全 这 一 重要 领域 。 


Mt: 美国 政府 大 数据 计划 ? 

美国 联邦 政府 为 了 应 对 大 数据 革命 所 带 来 的 机 遇 ， 制 订 相关 计划 以 推进 有 
关 研 究 机 构 在 大 数据 方面 进一步 实现 科学 发 现 ， 并 开展 创新 研究 。 

国防 部 (DOD ) 

国防 部 高 级 研究 计划 局 ( DARPA ) 

(1) 多 尺度 异常 检测 项 目 (ADAMS ) 解决 大 规模 数据 集 的 异常 检测 和 特 
征 化 问题 。 项 目 中 对 异常 数据 的 检测 是 指 对 现实 世界 环境 中 各 种 可 操作 的 信息 
数据 及 线索 的 收集 。 最 初 的 ADAMS 应 用 程序 进行 的 是 内 部 威胁 的 检测 ， 即 
在 日 常 网 络 活动 环境 中 检测 单独 的 异常 行动 。 

(2) 网 络 内 部 威胁 计划 ( CINDER )， 旨 在 开发 新 的 方法 来 检测 军事 计算 
机 网 络 与 网 络 间 谍 活 动 。 作 为 一 种 揭露 隐藏 操作 的 手段 ，CINDER 将 适用 于 对 
不 同类 型 对 手 的 活动 统一 成 “规范 ”的 内 部 网 络 活动 ， 目 的 是 提高 对 网 络 威胁 
检测 的 准确 性 和 速度 。 

(3 ) 洞察 识别 项 目 (Insight ) 计划 主要 解决 目前 情报 、 监 视 和 侦察 系统 的 
不 足 ， 进 行 自动 化 和 人 机 集成 推理 ,使 得 能 够 提前 对 时 间 敏 感 的 更 大 潜在 威胁 
进行 分 析 。 该 计划 旨 在 开发 出 资源 管理 系统 ， 通 过 分 析 图 像 和 非 图 像 的 传感器 
信息 和 其 他 来 源 的 信息 ， 进 行 网 络 威胁 的 自动 识别 和 非常 规 的 战争 行为 。 

(4) 机 器 阅读 项 目 (Machine Reading) 旨 在 实现 人 工 智 能 的 应 用 及 在 发 
展 学 习 系统 的 过 程 中 对 自然 文本 进行 知识 插入 ， 而 不 是 依靠 昂贵 和 费时 的 知 
识 表示 目前 的 进程 ， 并 需要 专家 和 相关 知识 工程 师 所 给 出 的 语义 来 表达 信息 


© 资源 翻译 自 : Big Data Fact Sheet, Executive Office of the President, March 29, 2012, http:/Avww.whitehouse. 
gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf., 
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的 含义 。 

(5) 思想 之 眼 项 目 (Mind's Eye) 旨 在 为 机 器 建立 视觉 的 智能 。 传 统 的 机 
器 视觉 研究 的 对 象 选取 广泛 的 物体 来 描述 一 个 场景 的 属性 名 词 ， 而 思想 之 眼 旨 
在 增加 在 这 些 场景 的 动作 认识 和 推理 需要 的 知觉 认 知 基础 。 总 之 ， 这 些 技术 可 
以 建立 一 个 更 完整 的 视觉 智能 效果 。 

(6) 以 任务 为 导向 的 反应 云 项 目 (Mission-oriented Resilient Clouds ) 通过 
技术 进行 检测 、 诊 断 并 对 攻击 作出 响应 ， 有 效 地 建立 了 “社区 卫生 服务 系统 ” 
的 云 ， 以 解决 云 计算 固有 的 安全 挑战 。 该 方案 还 旨 在 开发 新 技术 ,使 云 应 用 和 
基础 设施 受到 攻击 时 能 够 继续 运行 。 只 要 整体 能 够 有 效 地 运行 和 保存 ， 可 以 允 
许 个 别 主机 和 任务 损失 。 

(7) 对 加 密 数 据 的 编程 计算 (PROCEED ) 的 研究 工作 旨 在 开发 实用 的 方 
法 与 相关 现代 化 的 计算 编程 语言 ， 使 数据 加 密 时 仍然 能 使 用 云 计算 环境 ， 以 克 
服 信息 安全 的 重大 挑战 。 使 用 户 能 够 在 不 需 首 次 解密 的 情况 下 操纵 加 密 的 数 
据 ， 它 将 使 得 对 手 拦截 信息 更 加 困难 。 

(8) 在 视频 和 图 像 的 检索 与 分 析 工 具 (VIRAT) 计划 上 旨 在 开发 一 个 系统 能 
够 利用 军事 图 像 分 析 员 收集 的 数据 进行 大 规模 的 军事 图 像 分 析 。VIRAT 如 果 
成 功 ， 将 使 分 析 师 在 相关 活动 发 生 时 建立 警报 。VIRAT 还 计划 开发 工具 ， 能 
够 以 更 加 高 的 精准 奉 和 召回 府 从 大 量 视频 库 里 实现 视频 内 容 的 检索 。 

(9) XDATA 项 目 计划 旨 在 开发 用 于 分 析 大 量 的 半 结 构 化 和 非 结 构 化 数据 
的 计算 技术 及 软件 工具 。 最 核心 的 挑战 是 ， 可 伸缩 的 算法 在 分 布 式 数 据 存储 应 
用 、 如 何 使 人 机 交互 工具 能 够 有 效 地 迅速 定制 不 同 的 任务 ， 以 方便 对 不 同 数据 
进行 视觉 化 处 理 。 对 开源 软件 工具 包 的 灵活 使 用 ， 使 得 能 够 处 理 大 量 国防 应 用 
中 的 数据 。 

国土 安全 部 (DHS ) 

可 视 化 及 数据 分 析 卓 越 研 究 中 心 (CVADA ) 是 由 罗 格 斯 大 学 与 普 渡 大 学 
( 以 及 另外 三 所 大 学 ) 的 研究 人 员 共 同 合作 建立 的 ， 主 要 从 事 对 大 量 异 构 数据 
进行 研究 ， 使 相关 人 员 可 以 发 现 人 为 或 自然 灾害 、 丽 怖 事件 、 需 要 执法 的 边境 
安全 问题 、 网 络 威胁 爆炸 物 等 。 

能 源 部 (DOE ) 

科学 办 公 室 

(1) 高 级 科学 计算 研究 办 公 室 ( ASCR ) 主要 负责 数据 管理 、 可 视 化 和 数 
据 分 析 ， 包 括 数字 化 保存 和 社区 访问 等 。 套 件 程序 里 包括 广泛 使 用 数据 管理 
的 技术 ， 如 开 普 勒 科 学 的 工作 流程 系统 、 存 储 资源 管理 标准 ; 各 种 数据 存储 
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管理 技术 ， 如 BeSTman、 大 容量 数据 移动 器 和 适应 式 的 IO 系统 (ADIOS); 
FastBit 数据 索引 技术 ( 雅虎 使 用 ) 和 两 个 主要 的 科学 可 视 化 工具 
和 VislIt。 

(2) 高 性 能 存储 系统 (HPSS) 是 对 磁盘 和 磁带 系统 上 PB 级 数据 进行 管 
理 的 数据 管理 软件 。 由 美国 能 源 部 和 IBM 开发 的 HPSS 在 世界 各 地 的 大 学 和 
实验 室 的 使 用 ,用 在 数字 图 书馆 、 国 防 应 用 和 包括 纳米 技术 、 基 因 组 学 、 化 学 、 
磁 共振 成 像 、 核 物理 、 计 算 流 体力 学 、 气 候 在 内 的 一 系列 学 科 , 以 及 诺 斯 罗 普 " 格 
鲁 门 公司 ,美国 国家 航空 航天 局 (NASA) 和 美国 国会 图 书馆 。 

(3 ) 千 万 亿 次 数据 数学 分 析 主 要 是 对 千 万 亿 次 的 数据 分 析 处 理 从 庞大 的 科 
学 数据 集 提 取信 息 ， 发现 其 主要 特征 ， 并 理解 其 间 的 关系 。 研 究 领域 包括 机 器 
学 习 ， 数 据 流 的 实时 分 析 ， 非 线性 随机 的 数据 缩减 技术 和 可 扩展 的 统计 分 析 技 
术 ， 广 泛 适应 于 从 能 源 部 到 电网 ， 包 括 宇宙 学 和 天 气 数据 、 传 感 器 数据 等 。 

(4) 下 一 代 网 络 方案 支持 工具 使 得 合作 研究 在 重大 发 现 方面 能 够 有 所 作 
为 ， 包 括 2001 年 的 Globus 中 间 件 项 目 大 量 数据 的 移动 和 使 用 、2003 年 的 
GridFTP 的 数据 传输 协议 、2007 年 的 地 球 系统 网 格 (ESG ) 的 工具 。 今 天 的 
GridFTP 的 服务 器 开放 科学 网 格 、 地 球 系统 网 格 和 生物 社区 的 科学 数据 每 月 超 
it 1 PB 的 移动 。 Globus 中 间 件 也 被 得 克 萨 斯 大 学 、 软 件 公司 、 石 油 公司 利用 
并 一 起 合作 ， 培 养 学 生 能 够 使 用 先进 的 石油 工程 方法 和 集成 的 工作 流程 。 

基础 能 源 科 学 办 公 室 (BES ) 

这 一 办 公 室 的 科学 用 户 设施 支持 旨 在 协助 用 户 数 据 管 理 和 分 析 大 数据 ， 可 
每 天 从 一 个 单一 的 实验 数据 大 容量 化 (1012 字 节 ) 努力 。 例 如 ， 加 速 数据 采 
集 ， 处 理 和 分 析 (ADARA ) 项 目 解决 了 数据 的 散 裂 中 子 源 (SNS) 的 数据 系 
统 提 供 实时 分 析 , 实验 控制 的 工作 流程 需要 , 以 及 已 经 建立 X 射线 影像 资料 库 ， 
以 最 大 限度 地 提高 数据 的 可 用 性 和 更 有 效 地 利用 同步 加 速 器 光源 。 

Æ 2011 年 10 月， 由 生物 工程 学 会 和 ASCR 的 基础 能 源 科 学 的 数据 和 通 
信 研 讨 会 将 确定 实验 数据 的 需求 ， 这 可 能 会 影响 到 科学 发 现 。 

(1) 生物 和 环境 研究 计划 (BER) 大 气 辐 射 测量 (ARM) 气候 研究 设施 
是 一 个 多 平台 的 科学 用 户 设施 ， 提 供 重要 的 大 气 现象 的 精确 观测 研究 ， 大 气 过 
程 认 识 的 进步 需要 国际 社会 的 基础 设施 和 气候 模型 。 ARM 的 数据 是 可 以 进行 
应 用 的 ， 并 以 其 作为 文章 发 表 在 一 个 超过 100 年 历史 的 杂志 。 正 在 处 理 收集 和 
展示 的 高 时 间 分 辨认 和 光谱 信息 ， 可 应 对 与 数 百 份 文书 相关 的 挑战 ， 以 满足 用 
户 的 需求 。 

(2) 系统 生物 学 知识 库 (Kbase ) 是 一 个 社区 驱动 的 软件 框架 ， 对 微生物 、 
植物 和 环境 条 件 下 的 生物 群落 功能 的 数据 驱动 的 预测 。 这 是 一 个 开放 式 的 设计 


ParaView 


109 


110 


大 数据 BIG DATA 


与 开发 ， 以 提高 算法 的 开发 和 部 署 效率 ， 并 增加 从 异 构 数据 源 的 实验 数据 的 获 
取 和 集成 。Kbase 不 是 一 个 典型 的 数据 库 ， 而 是 一 种 手段 ， 以 解释 缺少 的 信息 
成 为 实验 设计 预测 工具 。 

聚变 能 源 科 学 办 公 室 (FES ) 

通过 FES 和 高 级 科学 计算 研究 ( ASCR ) 办 公 室 高 级 计算 合作 的 (SciDAC ) 
科学 发 现在 聚变 能 的 科学 计算 和 实验 研究 大 数据 存在 的 挑战 。ASCR-FES 开发 
的 数据 管理 技术 ， 包 括 高 性 能 的 输入 /输出 系统 ， 先 进 的 科学 工作 流程 和 出 处 
框架 ， 可 视 化 技术 解决 独特 的 融合 需求 ， 已 经 吸引 了 欧洲 一 体 化 建 模 的 努力 和 
国际 热 核 实验 堆 ， 一 个 国际 核 聚变 研究 和 工程 项 目的 关注 。 

高 能 物理 办 公 室 (HEP ) 

高 能 物理 计算 计划 经 过 了 全 球 数 百名 科学 家 的 努力 ， 支 持 大 量 的 分 析 研 
究 ， 复 杂 的 实验 数据 集 ， 以 及 大 量 的 模拟 数据 。 协 作 企 业 进 行 大 数据 管理 ， 包 
括 生产 和 分 布 式 分 析 PanDA ( 产品 分 布 式 分 析 ) 工作 量 管理 系统 及 XRootD， 
一 种 高 性 能 、 快 速 、 可 扩展 访问 多 种 数据 存储 库 的 容错 软件 。 

核 物理 办 公 室 (NP) 

美国 核 数据 计划 (USNDP ) 是 一 个 多 方面 努力 ， 涉 及 7 个 国家 实验 室 和 
2 所 大 学 的 项 目 ， 提 供 跨越 多 个 领域 ， 包 括 核 物理 、 编 译 和 交叉 检查 ， 对 所 有 
原子 核 的 重要 性 质 的 相关 实验 结果 、 维 护 和 广泛 使 用 的 专用 数据 库 。 

科学 和 技术 信息 办 公 室 (OST!) 

OSTI 是 唯一 的 DataCite 美国 联邦 机 构成 员 ( 全 球 领先 的 财团 科学 和 技术 
信息 的 组 织 ) 中 发 挥 了 关键 作用 ， 在 塑造 实践 的 政策 和 技术 实现 数据 的 引用 ， 
这 使 得 可 以 跟踪 数据 的 影响 ， 使 有 效 的 重用 和 数据 核查 与 学 术 结 构 的 表彰 及 奖 
励 数 据 生产 商 可 设立 。 

退伍 军人 管理 部 (VA) 

(1) 医疗 保健 信息 研究 所 (CHIR) 开发 自然 语言 处 理 (NPL) 工具 ， 能 够 
对 在 VA 以 文本 形式 存储 的 大 量 数据 进行 信息 解锁 。 

(2) VA 正在 努力 通过 保护 作战 人 员 使 用 文字 处 理 算 法 捕获 公共 卫生 事件 
(ProWatch )， 正 在 开发 一 个 的 生产 透明 、 重 复 性 好 、 可 重复 使 用 的 各 种 安全 相 
关 的 事件 监控 软件 探测 ， 以 研究 为 基础 的 监控 程序 ， 能 够 跟踪 、 测 量 与 军事 部 
署 相 关 的 健康 条 件 。 

(3) AVIVA 是 VA 的 下 一 代 就 业 人 力 资源 系统 ， 将 业务 应 用 程序 和 基于 浏 
览 器 的 用 户 界面 分 开 的 数据 库 。 分 析 工 具 已 经 被 建立 在 此 基础 上 研究 ， 最 终 决 
定 在 对 病人 进行 支持 。 

(4) 医学 成 果 观 察 项 目 设 计 用 来 比较 各 种 安全 监测 分 析 方 法 的 有 效 性 、 可 
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行 性 和 性 能 。 

(5) 企业 数据 仓库 (CDW) 是 VA 的 项 目 ， 组织 和 管理 从 各 种 渠道 传递 
的 个 人 及 群体 的 疾病 和 治疗 的 完整 视图 的 数据 。 

(6) 健康 资料 库 是 卫生 保健 提供 者 的 数据 格式 规范 的 数据 ， 尤 其 是 VA 和 
国防 部 之 间 ， 让 CDW 集成 的 数据 。 

(7) 基因 组 信息 系统 综合 科学 (GenlSIS) 计划 ， 通 过 个 性 化 医疗 ， 提 高 
退伍 军人 的 医疗 保健 。GenISIS 通过 接触 获得 电子 健康 记录 和 遗传 数据 ， 可 以 
跨 VA 进行 临床 试验 、 基 因 试 验 和 成 果 研 究 。 

(8 )“ 百 万 美元 老将 计划 ”招募 退伍 军人 自愿 参加 血液 样本 的 基因 分 型 和 
基因 测序 。 这 些 基 因 样 本 支持 GenISIS， 将 用 于 了 解 个 别 老将 的 遗传 疾病 状态 
的 健康 记录 。 

(9) VA 的 信息 和 计算 基础 设施 为 目前 VA 可 用 的 大 型 数据 集 提供 分 析 场 
所 和 工具 ， 将 促进 VA 任何 网 络 之 间 的 合作 研究 。 

卫生 和 人 类 服务 部 (HHS ) 

疾病 预防 控制 中 心 (CDC) 

(1) 生物 传 感 2.0 是 第 一 个 考虑 到 区 域 和 国家 协调 的 情况 下 ， 通 过 互 操作 
的 网 络 系统 对 公众 健康 意识 的 可 行 性 分 析 的 系统 ， 其 建立 在 现 有 的 国家 和 地 方 
的 能 力 之 上 。 生 物 传 感 2.0 移 除 许 多 单 片 物理 结构 相关 的 成 本 ， 同 时 还 对 最 终 
用 户 透 明 的 分 布 式 系统 方面 ， 做 出 适当 的 分 析 和 报告 的 数据 访问 。 

(2 ) 疾病 预防 控制 中 心 的 特别 细菌 学 参考 实验 室 (SBRL ) 的 使 用 细菌 和 
疫情 ID 网 络 生物 学 技术 从 有 效 、 迅 速 爆发 中 检测 未 知 的 细菌 病原 体 。 谱 系 基 
因 组 学 ， 比 较 整 个 基因 组 DNA 序列 的 系统 发 育 分 析 ， 将 带 来 基于 序列 识别 的 
概念 ， 以 全 新 的 水 平 ， 在 不 久 的 将 来 对 公众 健康 产生 深远 的 影响 。 发 展 一 个 新 
的 物种 鉴定 SBRL 基因 组 管道 ， 将 允许 多 个 分 析 一 个 新 的 或 迅速 崛起 的 病原 体 
在 几 小 时 内 进行 ， 而 不 是 数 天 或 数 周 。 

医疗 保险 和 医疗 补助 服务 中 心 (CMS) 

(1) 正在 开发 基于 Hadoop 的 数据 库 ， 以 支持 医疗 保险 和 医疗 补助 项 目的 
分 析 和 报告 。 其 主要 目标 之 一 是 开发 可 支持 、 可 持续 、 可 扩展 的 系统 设计 ， 可 
在 数据 库 一 级 进行 数据 积累 ， 并 补充 现 有 的 技术 。 

(2) 正在 评估 使 用 XML 数据 库 技术 ， 以 支持 保险 等 事务 密集 型 数据 交换 
的 环境 ， 尤 其 是 要 支持 资格 得 查 、 报 名 等 流程 。XML 数据 库 可 能 可 以 容纳 大 
数据 表 规 模 的 数据 ， 并 对 交互 性 能 进行 了 优化 。 

(3) 医疗 保险 和 医疗 补助 服务 中 心 与 Oak Ridge 国家 实验 室 共同 开展 了 一 
套 试点 项 目 ， 涉 及 数据 可 视 化 工具 ， 平 台 技术 ， 用 户 界 面 选项 和 高 性 能 计算 技 
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术 等 ， 项 目 旨 在 为 医疗 保险 和 医疗 补助 服务 中 心 的 重点 项 目 使 用 行政 索赔 数据 
( 医疗 保险 ) 来 创建 有 用 的 信息 产品 以 引导 和 支持 决策 。 

食品 与 药物 管理 局 (FDA ) 

虚拟 实验 室 环境 (VLE) 将 结合 现 有 的 资源 和 能 力 建立 一 个 虚拟 实验 室 数 
据 网 络 ， 使 用 先进 的 分 析 和 统计 工具 与 功能 ， 实 现 预测 并 促进 公众 健康 、 文 档 
管理 支持 、 电 子 临场 能 力 等 ， 促 进 世 界 范围 内 的 合作 ， 使 任何 地 点 在 一 小 时 内 
就 如 同一 个 虚拟 实验 室 。 

(本 章 编译 者 : 周 燕 ， 清 华 大 学 国际 传播 研究 中 心 助理 研究 员 ， 硕 士 研 
FE ) 
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大 数据 相关 术语 ” 
( 注 : 按照 英文 首 字母 排序 ) 


A/B 测试 ( A/B testing ): 在 一 个 控制 组 和 各 个 对 照 组 比较 中 ， 发 现 哪 种 方 
案 更 有 利于 给 定 客观 变量 ( 如 市 场 反应 速度 ) 发 挥 作用 。 这 种 测试 也 称 为 “对 
比 测试 ”或 “水 桶 测试 "。 这 种 测试 可 以 应 用 在 什么 样 的 文本 结构 、 图 片 、 网 
页 颜色 可 以 提高 一 个 商业 网 站 的 交易 量 。 大 数据 能 使 巨大 数量 的 测试 具有 可 操 
作 性 和 分 析 性 。 确 保 在 足够 规模 的 基础 上 探测 控制 组 和 试验 组 之 间 有 统计 学 意 
义 的 差异 。 测 试 中 出 现 多 个 变量 的 统计 建 模 技 术 被 称 为 ABN 测试 。 

关联 规则 研究 (Association rule learning ): 数据 挖掘 中 用 来 发 现 大 数据 库 
中 各 种 变量 之 间 有 趣 关 系 的 一 系列 方法 。 应 用 之 一 就 是 “购物 篮 分 析 ”( Market 
basket analysis )， 通 过 数据 分 析 可 以 在 门店 的 销售 过 程 中 找到 具有 关联 关系 的 
商品 ， 并 以 此 获得 销售 收益 的 增长 。 比 如 研究 发 现 超市 中 购买 啤酒 的 消费 者 也 
易于 购买 纸尿裤 。 

分 类 (Classification ): 应 用 于 数据 挖掘 的 一 项 技术 ， 指 在 训练 数据 集 里 已 
经 分 类 的 数据 基础 上 归 类 新 的 数据 ， 有 蜡 于 聚 类 分 析 (Cluster analysis )， 被 称 
为 监督 分 析 (supervised learning )。 应 用 之 一 就 是 预测 特定 群体 消费 行为 ( 购 
买 决定 、 顾 客流 失 率 、 消 费 率 等 )。 

聚 类 分 析 ( Cluster analysis ): 一 种 物 以 类 聚 的 多 元 统计 方法 ， 在 预先 对 事 
物 没有 分 类 经 验 ， 即 分 类 界面 不 清楚 的 情况 下 ， 可 用 聚 类 分 析 进 行 分 类 ， 并 结 
合 判别 分 析 ， 对 新 事物 作 类 别 预测 。 应 用 之 一 为 将 消费 者 细 分 为 针对 不 同 目标 
市 场 的 相似 群体 。 

众 包 (Crowdsourcing ): 指 一 些 没有 清晰 界限 的 雇员 、 项 目 发 起 者 或 总 
包 商 、 外 包 等 组 成 的 群体 在 执行 传统 任务 中 形成 的 一 种 行为 。 这 是 一 种 大 规模 
合作 和 使 用 Web2.0 的 实例 。 

数据 融合 和 数据 集成 ( Data fusion and data integration ): 集成 和 分 析 多 源 
数据 的 一 系列 方法 ， 旨 在 发 展 比 单一 来 源 数据 的 分 析 更 有 效 和 更 具 准 确 性 的 方 
式 。 信 号 处 理 技术 可 以 用 来 实现 某 些 类 型 的 数据 融合 。 此 项 技术 的 运用 包括 使 
用 物 联 网 中 的 传感器 数据 监测 炼油 厂 的 复杂 分 布 系统 表现 。 

数据 挖掘 (Data mining ): 集合 统计 学 、 机 械 学 及 数据 库 管理 的 方法 处 理 
大 型 数据 库 的 技术 。 这 些 方 法 包括 关联 规则 研究 、 聚 类 分 析 、 回 归 分 析 和 归 


®© 资料 翻译 自 : The McKinsey Global Institute, Big data: The next frontier for innovation, competition,and 
productivity, 2011.6. 
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类 等 。 

系 综 研 究 ( Ensemble learning ) : 指使 用 一 系列 学 习 器 进行 学 习 ， 并 使 用 某 
种 规则 把 各 个 学 习 结 果 进 行 整合 从 而 获得 比 单个 学 习 器 更 好 的 学 习 效果 的 一 种 
机 器 学 习 方 法 。 

基因 演算 法 ( Genetic algorithms ): 以 自然 界 生物 基因 中 DNA 编码 与 繁殖 
的 原理 ， 用 以 模拟 自然 环境 与 人 造 环境 中 的 一 些 现象 的 研究 方法 。 无 论 自然 或 
人 造 环境 ， 都 可 以 将 事物 依 其 属性 进行 如 基因 DNA 一 样 的 编码 ， 并 在 物 群 之 
间 借 由 编码 的 运算 繁衍 出 “下 一 代 ”。 通 过 函数 设计 可 以 洲 选 适合 环境 的 “下 
一 代 ” 继 续 参 与 繁衍 ， 由 此 获得 较 适 合 环 境 的 物种 。 基 因 演 算法 经 常 被 描述 为 
一 种 “进化 算法 ”， 适 合 解决 非 线 性 问题 。 

机 器 学 习 (Machine learning ): 亦 称 “人 工 智能 "， 研 究 计算 机 怎样 模拟 或 
实现 人 类 的 学 习 行为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 使 之 
不 断 改 善 自身 的 性 能 。 

自然 语言 的 处 理 方法 (Natural language processing ): 是 关于 计算 机 与 人 类 
( 自然 语言 ) 交互 的 计算 机 科学 与 语言 学 的 一 个 领域 。 自 然 语言 生成 (Natural 
language generation) 系统 把 计算 机 数据 库 信息 转换 成 人 类 可 读 的 语言 。 自 然 
语言 理解 系统 ( Natural language understanding ) 把 人 类 语言 的 样本 转换 为 计算 
机 容易 处 理 的 更 加 形式 化 的 表示 ， 诸 如 分 析 树 或 者 一 阶 逻辑 。NLP 范围 内 的 
很 多 难题 适用 于 生成 和 理解 ， 例 如 ， 为 了 理解 句子 ， 计 算 机 必须 能 够 为 形态 
(morphology， 词 的 构造 ) 建 模 ， 为 了 生产 语法 上 正确 的 英语 句子 也 必须 有 形 
态 的 模型 。 

类 神经 网 路 (Neural networks ): 以 电脑 ( 软件 或 硬件 ) 来 模拟 生物 大 脑 神 
经 的 人 工 智 能 系统 , 并 将 此 应 用 于 辨识 .决策 控制、 预测 等 行为 的 计算 机 模型 。 

网 络 分 析 〈Network analysis ): 在 一 个 图 表 或 网 络 中 用 来 描述 节点 之 间 关 
系 的 一 系列 方法 , 在 社会 网 络 分 析 中 , 还 可 以 是 社区 或 组 织 中 的 个 人 链接 分 析 。 
例如 ， 信 息 是 如 何 传播 的 ， 或 者 是 谁 的 影响 力 最 大 等 。 典 型 的 应 用 是 分 析 市 场 
营销 中 的 主要 意见 领袖 或 确认 企业 信息 流 的 瓶颈 等 。 

最 优化 (Optimization ): 指 运用 数学 方法 研究 各 种 系统 ( 如 成 本 、 速 度 、 
可 靠 性 ) 的 优化 途径 及 方案 ， 为 决策 者 提供 科学 决策 的 依据 。 最 优化 方法 的 主 
要 研究 对 象 是 各 种 有 组 织 系 统 的 管理 问题 及 其 生产 经 营 活动 。 

模式 识别 ( Pattern recognition ): 指 对 表征 事物 或 现象 的 各 种 形式 的 (数值 
的 、 文 字 的 和 逻辑 关系 的 ) 信息 进行 处 理 和 分 析 , 以 对 事物 或 现象 进行 描述 、 
辨认 、 分 类 和 解释 的 过 程 , 是 信息 科学 和 人 工 智能 的 重要 组 成 部 分 。 

预测 建 模 ( Predictive modeling ): 建立 和 选择 一 个 数学 模型 ， 用 来 最 好 预 
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测 某 种 可 能 性 的 一 系列 方法 。 典 型 应 用 为 顾客 关系 管理 ， 预 测 顾客 选择 其 他 卖 
家 或 带 来 更 多 买 家 的 可 能 性 。 

回归 (Regression ): 确定 两 种 或 两 种 以 上 变数 间 相 互 依赖 的 定量 关系 的 一 
种 统计 分 析 方 法 ,常用 于 预测 和 预报 。 如 基于 不 同市 场 和 经 济 变量 的 销售 预期 ， 
或 影响 顾客 满意 度 的 生产 参数 。 

情感 分 析 ( Sentiment analysis ): 一 种 应 用 自然 语言 的 处 理 和 其 他 分 析 技 术 ， 
从 源 文 本 文件 中 识别 和 提取 信息 的 方法 。 主 要 为 判定 作者 或 者 演讲 者 对 某 个 话 
题 的 态度 , 包括 判断 、 评 价 、 情 绪 状况 、 情 绪 交 流 等 。 企 业 使 用 情感 分 析 方 法 ， 
可 以 通过 社交 媒体 ( 博客 、 微 博 、 社 会 网 络 ) 发 现 细 分 的 客户 群 及 股民 对 公司 
产品 和 行为 的 反应 等 。 

信号 处 理 ( Signal processing ): 一 种 来 自 于 电气 工程 和 应 用 数学 的 方法 ， 
最 初 用 以 分 析 离散 和 连续 信号 ， 如 无 线 电信 和 号、 声音 和 图 像 等 。 

空间 分 析 (Spatial analysis ): 空间 分 析 是 基于 地 理 对 象 的 位 置 和 形态 的 空 
间 数 据 的 分 析 技术 ， 其 目的 在 于 提取 和 传输 空间 信息 。 如 关联 性 分 析 (分析 
顾客 购买 商品 的 意愿 与 商品 摆 放 位 置 有 无 关系 ) 或 模拟 ( 同一 企业 在 不 同 地 区 
生产 供应 链 的 表现 )。 

统计 学 (Statistics ): 收集 、 组 织 和 解释 调查 设计 及 实验 数据 的 科学 。 统 计 
技术 经 常 被 用 来 判断 变量 之 间 关 系 的 偶然 性 ( 无 效 假设 )， 以 及 变量 之 间 可 能 
存在 的 因果 关系 ( 显著 性 检验 )。 如 AB 测试 即 是 为 了 检验 什么 样 的 市 场 因 素 
最 能 增加 收入 。 

监督 学 习 (Supervised learning ): 一 种 机 器 学 习 技术 ， 可 以 由 训练 资料 中 
学 到 或 建立 一 个 模式 (Learning model )， 并 依 此 模式 推测 新 的 模型 。 训 练 资料 
是 由 输入 物件 (通常 是 向 量 ) 和 预期 输出 所 组 成 。 函 数 的 输出 可 以 是 一 个 连续 
的 值 ( 称 为 回归 分 析 )。 或 是 预测 一 个 分 类 标签 ( 称 作 分 类 )。 与 无 监督 学 习 
不 同 。 

模拟 ( Simulation ): 复 杂 系 统 的 行为 建 模 ,通常 用 于 预测 .估算 和 情景 规划 。 
例如 蒙特 卡 洛 模拟 ， 是 一 类 通过 设 定 随 机 过 程 ， 反 复生 成 时 间 序 列 ， 计 算 参 数 
估计 量 和 统计 量 ， 进 而 研究 其 分 布 特征 的 方法 。 其 结果 是 给 出 了 一 个 概率 分 布 
的 直方 图 。 比 如 评估 可 能 满足 财务 目标 的 各 种 举措 的 成 功 可 能 性 。 

时 间 序 列 分 析 (Time series analysis ): 一 种 动态 数据 处 理 的 统计 方法 。 该 
方法 基于 随机 过 程 理 论 和 数理 统计 学 方法 ， 研 究 随机 数据 序列 所 遵从 的 统计 规 
律 ， 以 用 于 解决 实际 问题 。 时 间 序 列 分 析 的 例子 包括 股市 指数 的 时 值 或 某 种 给 
定 条 件 下 每 天 确诊 患者 的 人 数 。 

无 监督 学 习 (Unsupervised learning ): 发 现 隐藏 在 未 标记 的 数据 结构 中 的 
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一 套 机 器 学 习 技 术 。 聚 类 分 析 是 无 指导 学 习 的 范例 。 

RJE (Visualization ): 创建 图 片 、 图 表 、 动 画 ， 用 以 沟通 、 理 解 、 提 高 
大 数据 分 析 结果 的 技术 。 

大 数据 技术 (Big data technologies ): 用 于 聚合 、 操 作 、 管 理 和 分 析 大 数据 
的 技术 。 

大 表格 (Big table ): 建立 在 谷歌 文件 系统 上 的 专 有 分 布 式 数据 库 系统 。 

商业 智能 ( Business intelligence ): 用 于 设计 报告 、 分 析 和 呈现 数据 的 应 用 
软件 。BL 工具 往往 用 于 读 取 已 存储 在 数据 仓库 或 数据 集 市 中 的 数据 ， 也 可 以 
用 来 定期 生成 标准 报告 ， 或 在 实时 管理 仪表 盘 显 示 信息 。 

卡 桑 德 拉 ( Cassandra ): 一 个 免费 的 开源 数据 库 管理 系统 ， 用 以 处 理 大 量 
的 分 布 式 系统 中 的 数据 。 该 系统 最 初 是 在 脸谱 上 开发 ， 现 作为 Apache 软件 基 
金 会 的 一 个 项 目 运行 。 

云 计算 ( Cloud computing ): 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 
模式 ， 通常 涉 及 通过 互联 网 来 提供 动态 易 扩展 且 经 常 是 虚拟 化 的 资源 。 云 是 网 
络 、 互 联网 的 一 种 比喻 说 法 。 过 去 在 图 中 往往 用 云 来 表示 电信 和 网， 后 来 也 用 来 
表示 互联 网 和 底层 基础 设施 的 抽象 。 

数据 集 市 ( Data mart ): 数据 仓库 的 子 集 ， 通 常 通过 商业 智能 工具 向 用 户 
提供 数据 。 

数据 仓库 (Data warehouse ): 优化 报告 的 专门 数据 库 ， 通 常用 于 存储 大 量 
的 结构 化 数据 。 数 据 使 用 ETL ( 提取 、 转 换 和 加 载 ) 工具 从 业务 数据 存储 中 
上 传 ， 使 用 商业 智能 工具 生成 报告 。 

分 布 式 系统 ( Distributed system ): 多 台 计 算 机 通过 网 络 通信 ， 用 以 解决 常 
见 的 计算 问题 。 问 题 分 为 多 个 任务 ,每 个 由 一 台 或 多 台 并 行 工作 的 计算 机 解决 。 
分 布 式 系统 的 优点 包括 更 高 的 性 能 ， 较 低 的 成 本 ， 更 高 的 可 靠 性 ， 以 及 更 多 的 
可 扩展 性 。 

发 电机 (Dynamo ): 专 有 分 布 式 数据 存储 系统 ， 由 亚马逊 开发 。 

提取 、 转 换 和 加 载 ( Extract, Transform and Load, ETL ): 一 种 软件 工具 ， 
用 于 从 外 部 资源 中 提取 数据 、 转 换 以 适应 操作 需求 ， 并 将 其 装 入 一 个 数据 库 或 
数据 仓库 。 

谷歌 文件 系统 ( Google file system ): 专 有 分 布 式 文件 系统 ， 由 谷歌 开发 。 

FA (Hadoop ): 一 个 分 布 式 系统 基础 架构 。 用 户 可 以 在 不 了 解 分 布 式 底 
层 细 节 的 情况 下 ， 开 发 分 布 式 程序 。 充 分 利用 集群 的 威力 高 速 运算 和 存储 ， 
Hadoop 实现 了 一 个 分 布 式 文件 系统 ( Hadoop Distributed File System )， 简 称 
HDFS。 


大 数据 相关 术语 


HBase ( HBase ): 一 个 免费 的 开源 、 分 布 式 、 非 关系 型 数据 库 ， 以 谷歌 的 
大 表格 为 蓝本 。 

映射 化 简 算 法 (MapReduce ): 谷歌 开发 的 C++ 编程 工具 ， 用 于 大 规模 数 
据 集 (大 于 1TB ) 的 并 行 运算 。 

混搭 (Mashup ): 一 种 应 用 程序 ， 使 用 并 结合 来 自 两 个 或 多 个 数据 源 的 数 
据 演示 或 功能 ， 以 创造 新 的 服务 。 这 些 应 用 往往 在 网 络 上 ， 通 过 开放 应 用 编程 
接口 或 开放 的 数据 源 访问 使 用 数据 。 

元 数据 (Metadata ): 描述 数据 文件 的 内 容 和 背景 的 数据 。 

非 关 系 型 数据 库 (Non-relational database ): 不 将 数据 存在 表 中 的 数据 库 ， 
与 结构 型 数据 库 相 对 。 

RR 语言 (R): 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 属 于 GNU 系统 的 
一 个 自由 、 免 费 、 源 代码 开放 的 软件 , 是 用 于 统计 计算 和 统计 制图 的 优秀 工具 。 

关系 型 数据 库 (Relational database ): 是 建立 在 关系 模型 基础 上 的 数据 库 ， 
借助 于 集合 代数 等 数学 概念 和 方法 来 处 理 数 据 库 中 的 数据 。 标准 数据 查询 语 
言 SQL 就 是 一 种 基于 关系 数据 库 的 语言 ， 这 种 语言 执行 对 关系 数据 库 中 数据 
的 检索 和 操作 。 关 系 模型 由 关系 数据 结构 、 关 系 操作 集合 、 关 系 完整 性 约束 三 
部 分 组 成 。 

半 结 构 数据 ( Semi-structured data ): 字段 数目 不 定 的 数据 ， 如 Exchange 存 
储 的 数据 。 

结构 化 查询 语言 ( Structured Query Language ): 一 种 数据 库 查 询 和 程序 设 
计 语 言 ， 用 于 存 取 数据 以 及 查询 、 更 新 和 管理 关系 数据 库 系统 ，SQL 也 是 数 
据 库 脚本 文件 的 扩展 名 。 

流 处 理 ( Stream processing ): 也 称 事件 流 处 理 ， 指 处 理 大 量 实时 事件 数据 
流 的 技术 设计 。 流 处 理 使 金融 服务 中 的 交易 算法 、RFID 事件 处 理应 用 程序 、 
欺诈 检测 、 过 程 监控 、 基 于 位 置 电信 服务 成 为 可 能 。 

结构 化 数据 ( Structured data ): 以 二 维 表 结 构 存 储 在 数据 库 中 的 数据 ， 如 
常用 的 Excel 软件 所 处 理 的 数据 。 

非 结构 化 数据 ( Unstructured data ): 不 能 用 数据 库 二 维 逻 辑 表 来 表现 的 
数据 即 称 为 非 结构 化 数据 ,包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 、XML、 
HTML、 各 类 报表 、 图 像 和 音频 /视频 信息 等 。 

可 视 化 ( Visualization ): 用 于 创建 图 片 、 图 表 或 动画 的 技术 ， 经 常 被 用 来 
合成 大 数据 分 析 的 结果 。 

(附录 部 分 编译 者 为 刘 娟 ， 清 华 大 学 国际 传播 研究 中 心 助理 研究 员 ， 博 士 研 
RÆ) 
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